自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 爬虫之网页解析——正则表达式、BeautifulSoup、xpath

解析内容得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。正则表达式处理 def get_zhushi_info(url): #urls='https://so.gushiwen.org/shiwen2017/ajaxshiwencont.aspx?id=45c396367...

2019-06-21 13:54:26 905

原创 爬虫之爬取古诗文网站

import pandas as pdimport urllib.parseimport urllib.requestfrom lxml import etreeimport requestsimport reimport timeimport osimport randomdef get_zhushi_info(url): #urls='https://so.gu...

2019-06-21 13:48:51 1044

原创 爬虫篇之IP被限制的方法

第一篇技术博客,记录自己渣渣的coding。在互联网公司的实习中,发现有些工作会相互重叠,但每写一次代码,都要重新百度一次,时间效率低下,记录在博客日后好温故而知新。维护自己的IP池,并验证此IP能不能用,保存到csv文件当中。缺点:由于爬取的是西刺代理IP,每个IP时间有限,很容易过期。import requestsimport reimport timeimport ...

2019-06-21 12:05:48 2519

原创 写给程序员丁大喵

大家好,我是丁大喵,是众多程序猿当中的一个,或是即将成为其中的一名还没有完全入坑希望能有个大佬及时拉住我第一篇博客,希望以后可以和互联网一起进步嗷嗷嗷嗷,我是丁大喵

2017-11-14 15:33:36 206

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除