python爬虫
文章平均质量分 60
potato_big
这个作者很懒,什么都没留下…
展开
-
scrapy中添加cookie踩坑记录(源码分析)
问题发现:前段时间项目中,为了防止被封号(提供的可用账号太少),对于能不登录就可以抓取的内容采用不带cookie的策略,只有必要的内容才带上cookie去访问。本来想着很简单:在每个抛出来的Request的meta中带上一个标志位,通过在CookieMiddleware中查看这个标志位,决定是否是给这个Request是否装上Cookie。实现的代码大致如下:class CookieMiddleware(object): """ 每次请求都随机从账号池中选择一个账号去访问 ""原创 2020-11-17 00:27:42 · 607 阅读 · 0 评论 -
scrapy_redis源码分析(一):RedisSpider类(自定义初始请求)
scrapy_redis框架的RedisSpider类和RedisMixin类源码分析,自定义初始请求原创 2020-07-24 22:49:33 · 1166 阅读 · 0 评论 -
在线程中启动scrapy以及多次启动scrapy报错的解决方案(ERROR:root:signal only works in main thread)
最近项目遇到一个问题,需要设置一个监听线程,来监听消息队列,当收到消息的时候,需要启动相应的爬虫代码,执行抓取操作。提供了一个线程中启动scrapy以及在一运行环境下重复启动scrapy报错的解决方案。原创 2020-06-01 18:21:00 · 1818 阅读 · 2 评论 -
python3爬虫(2)--爬取糗事百科页面
在上一个python爬虫爬取百度百科有关python词条的100个页面的例子中,这次我们要爬取的是糗事百科的24小时热门页面的每个段子的内容,点赞数和评论数,对于爬取糗事百科和百度百科的主要不同在于糗事百科需要我们模拟浏览器登陆,普通的登陆并不会返回我们想要的内容,我们一起探讨一下。我们先按照爬取百度百科的方式获取一下糗事百科的页面信息import urllib.requesturl='http:/原创 2016-10-13 18:39:17 · 1112 阅读 · 0 评论 -
Python3爬虫(3)--爬取电子科大学生成绩
本文主要是写一个爬取学生成绩的一个小爬虫,我们在这中间要使用cookie的相关内容,登录到UESTC信息门户网站。在登陆到信息门户网站的时候我们可以通过火狐浏览器的httpfox插件查看postdata得到我们所要post的数据内容 但是当我们将这些内容post到目标网站时,发现并不能得到需要返回的页面,原因在于It是一个随时间变动所生成的一个字符串,我们需要先获取这个字符串,只需要将此段字符串切原创 2016-11-26 11:02:15 · 2495 阅读 · 0 评论 -
python3爬虫(1)--百度百科的页面爬取
新手起步,准备用写博客的形式记录下自己的学习路程,我用的是python3.5 ,大家互相学习,多多讨论这个对于百度百科的爬取往往作为python爬虫的第一课,慕课上有这个教程的视频(请看这里),博主只是记录一下我的学历历程。对于一些基础不扎实的朋友呢,建议先看一下廖雪峰老师的python课程(传送门),其实博主的基本功也不扎实,在写这段代码的时候有时候也会去看两眼,多练习,多动手就好了言归正传,爬原创 2016-10-06 22:49:55 · 1332 阅读 · 0 评论 -
Python3爬虫(4)--抓取考生的四六级成绩
本文主要写的是利用本地的四六级考生的相关信息,我们通过爬虫将这些信息在四六级考试成绩网上进行查询,然后将考生的成绩保存在本地的过程。由于四六级考生的信息不便透露,本文只是提供了一个思路。我们使用的是中国高等教育学生信息网(http://www.chsi.com.cn/cet/)作为我们查询的相关网站。我们打开网站之后,看到的如下面的界面 通过这个查询界面,我们可以知道大概要提交的参数,一个是准原创 2017-03-14 09:39:56 · 5610 阅读 · 0 评论 -
Python3爬虫(5)--获取知乎用户的粉丝
在上个爬虫中我们通过本地的四六级考生信息获取对应的成绩,这次我们主要是获取知乎用户的粉丝的相关信息存储在数据库中,数据库依然采用的是mysql数据库。这次爬取的是知乎上“余弦”的粉丝,我们在这个之前会先模拟登陆,然后研究内容的获取。模拟登陆不多说了,和登录科大信息门户的类似,这边直接附上代码#获取_xsrf的值 def collect(self): reponse=urlli原创 2017-03-27 14:38:49 · 1743 阅读 · 0 评论 -
BeautifulSoup-4.2使用笔记
参考文档:Beautiful Soup 4.2.0 中文文档本文仅为常用的方法总结,内容来自官方文档,这里只是做了摘选,完整的内容还请查看官方文档。BeautifulSoup是一个可以从html或者xml文件中提取数据的一个Python第三方库。我们可以在编写爬虫项目的时候,使用BeautifulSoup来帮助我们解析html文件。文章目录1、安装BeautifulSoup2、安装解析器3、...原创 2019-09-03 09:22:36 · 1041 阅读 · 0 评论