- 博客(4)
- 收藏
- 关注
原创 爬虫之网页解析——正则表达式、BeautifulSoup、xpath
解析内容得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。正则表达式处理 def get_zhushi_info(url): #urls='https://so.gushiwen.org/shiwen2017/ajaxshiwencont.aspx?id=45c396367...
2019-06-21 13:54:26 905
原创 爬虫之爬取古诗文网站
import pandas as pdimport urllib.parseimport urllib.requestfrom lxml import etreeimport requestsimport reimport timeimport osimport randomdef get_zhushi_info(url): #urls='https://so.gu...
2019-06-21 13:48:51 1044
原创 爬虫篇之IP被限制的方法
第一篇技术博客,记录自己渣渣的coding。在互联网公司的实习中,发现有些工作会相互重叠,但每写一次代码,都要重新百度一次,时间效率低下,记录在博客日后好温故而知新。维护自己的IP池,并验证此IP能不能用,保存到csv文件当中。缺点:由于爬取的是西刺代理IP,每个IP时间有限,很容易过期。import requestsimport reimport timeimport ...
2019-06-21 12:05:48 2519
原创 写给程序员丁大喵
大家好,我是丁大喵,是众多程序猿当中的一个,或是即将成为其中的一名还没有完全入坑希望能有个大佬及时拉住我第一篇博客,希望以后可以和互联网一起进步嗷嗷嗷嗷,我是丁大喵
2017-11-14 15:33:36 206
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人