![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python学习笔记
Mr_Ljin
这个作者很懒,什么都没留下…
展开
-
Python+正则表达式编写多线程百度贴吧网页爬虫
其实本来是想做一个利用Python+XPath的贴吧爬虫,但是遇到了一些很奇怪的问题搞了一天也没有解决,所以只有用简单的正则表达式来代替XPath。 这个小爬虫是用于爬取一个帖子所有的回帖人+回帖内容+回帖时间,并导出到本地的文件中保存。本次测试的贴吧地址为:https://tieba.baidu.com/p/3905531791?pn中1-5页的所有内容。 利用多线程可以大大提高爬虫爬取速度。原创 2017-08-25 21:12:18 · 689 阅读 · 0 评论 -
Python+Requests安装及抓取网页源码中文乱码问题的解决
Python+Requests安装及抓取网页源码中文乱码问题解决刚开始自学Python课程,学习到自制单线程小爬虫,第一步就是自动抓取网页源码,但碰到源码中中文编码不同会出现乱码问题。原创 2017-08-23 15:45:57 · 3858 阅读 · 0 评论