爬虫
cColdTea
再丑也要擦口红
展开
-
头条的动态页面爬取+百度下拉搜索框
写了一个简单的头条动态页面爬取代码。比如想获取这些图片或者title,但是直接open(‘https://www.toutiao.com/search/?keyword=%E7%8C%AB'),什么内容都没有,在chrome的开发者模式中可以看到,当页面有交互行为JS触发调度,JS发出一个http请求,此时找到这个请求即可,我是在network里找到的,有点难找,但是免得下其他插件了。此时...原创 2018-11-20 15:48:11 · 3224 阅读 · 2 评论 -
一个简单的百度贴吧爬虫&&百度搜索爬虫&&模拟登录菜鸟踩坑记(requests、lxml)
这几天在学爬虫,试了下简单的,不涉及scrapy框架,库用的lxml、requests,python3,不涉及网页界面交互。1、百度贴吧爬虫爬取贴吧贴子标题、发贴人信息(性别、关注贴吧)等,后来根据数据做了个词云,代码跟词云戳下: ...原创 2018-11-18 16:49:33 · 681 阅读 · 0 评论 -
一个爬虫练习游戏:黑板课爬虫闯关
网址:http://www.heibanke.com/lesson/crawler_ex00/大概用了一小天的时间吧,把这五关给过了,还挺好玩的。推荐小白玩玩。直接po代码了。我装pytessetact总有问题,之后其实可以直接训练一个cnn来做的,但是现在先po代码了,晚上回来随便弄弄。然后我第五关验证码就是人工把图片show出来,然后人工识别输入结果,很脑残。不管了。import...原创 2018-12-02 17:35:59 · 2156 阅读 · 0 评论 -
python中将 \\uxxxx转换为 Unicode字符串
今天碰到一个很有意思的问题,需要将普通的 Unicode字符串转换为 Unicode编码的字符串,如下:将 \\u9500\\u552e 转化为 \u9500\u552e 也就是 销售 。乍一看感觉挺简单的,用 re 库将前面的反斜杠去掉即可,但是在替换的过程中会抛出如下错误:Traceback (most recent call last): File "<pyshell#...转载 2019-08-10 21:26:38 · 1741 阅读 · 0 评论