- 博客(14)
- 资源 (5)
- 收藏
- 关注
原创 Scrapy源码解读01之命令行(Command line tool)
源码网址:https://doc.scrapy.org/en/latest/topics/commands.html创建项目:scrapy startproject 项目名称 [项目目录]如果不写项目目录,则会在命令运行的目录下创建一个和项目名称一样的文件夹,存放项目文件创建爬虫文件scrapy genspider 爬虫名字 爬虫网址例如scrapy genspider z...
2019-07-27 21:03:03 190
原创 scrapy抓取知乎全部用户信息
先说一下核心思想,从一个大v开始,抓取他的关注和粉丝,然后再遍历这两个群体,再抓关注和粉丝,层层抓下去,就会覆盖知乎的所有用户。好,让我们先分析分析知乎这个网站,提示一下知乎访问是需要一些请求头的,DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) A...
2019-07-26 21:03:32 274 2
原创 崔庆才flask+scrapy维护cookies过程及代码讲解
源码请访问其github,https://github.com/Python3WebSpider/CookiesPool下面开始一步一步来讲解代码:首先看run.py看一下程序的入口from cookiespool.scheduler import Schedulerdef main(): s = Scheduler() s.run()if __name__ ...
2019-07-25 13:35:49 376 1
转载 cookies池和proxy池【转】
https://github.com/Python3WebSpider/CookiesPoolhttps://github.com/Python3WebSpider/ProxyPool首先从上面的俩个网址上下载下来工具运行run.py可以在0.0.0.0:5000/weibo/random 得到cookies可在localhost:5555/random中得到proxy---...
2019-07-24 17:54:17 312
原创 pycharm使用查找和替换功能转化字典格式
哇,今天跟着崔神学到了一个绝招。pycharm还可以这么用~!一张图足够描述了我从网页把请求头复制过来,但是并不是字典格式,这要一个一个转的话也要花上几分钟,而崔神直接用Ctrl+R使用查找替换功能,用正则表达式查找,然后替换就ok了,编译器还是用的不够熟练~...
2019-07-23 20:03:37 1289
转载 Python爬虫框架之Scrapy详解【转】
scrapy爬虫安装:首先,安装Python,pip,然后使用pip安装lxml和scrapy,这样就可以新建scrapy项目了。然后,在命令行使用scrapy startproject xxx命令新建一个名为xxx的scrapy爬虫项目。scrapy爬虫内部处理流程:我们在使用scrapy写爬虫,一般要继承scrapy.spiders.Spider类,在这个类中,有个数组类型的变量sta...
2019-07-22 16:19:43 229
原创 Scrapy使用Downloader Middleware设置代理访问网站
一、首先上网找到一个好用能用的代理二、找到以后设置代理:win10打开控制面板里的internet选项里的局域网设置,在这里设置勾选,设置好代理后,点击确定。代理设置完毕。三、代码实现middlewares.pyclass ProxyMiddleware(object): logger=logging.getLogger(__name__) #返回...
2019-07-22 15:20:06 680
原创 scrapy小功能之scrapy shell
Pycharm的scrapy文件下的命令行中输入scrapy shell +网址(如quotes.toscrape.com)就可以操作,输入语句就可以得到页面返回结果。下面就是输入……shell……之后的命令行交互界面:我要测试原网页的页面元素是不是选取正确:回车原网页:非常实用,当你不清楚抓取语句写的是否正确时,就可以用这个来检测。退出这个模式:ex...
2019-07-21 19:39:37 160
原创 完整pyspider安装
通过pip install pyspider,部分win10用户在安装pyspider时可能会出现Command "python setup.py egg_info" failed with error code 10 in ……这个错误,是因为找不到pycurl导致,所以我们需要用下面的方法。一、pip install wheel二、访问:http://www.lfd.u...
2019-07-20 21:28:42 355
原创 selenium+pyquery爬取京东美食并存入mongodb数据库
一、首先我们分析一下京东站点:要是想爬取美食的话,我们首先需要在搜索输入框里输入我们要搜索的内容,也就是“美食”两个字,然后点击搜索按钮,这个技术我们需要用selenium来实现模拟操作,我们用一个search函数来实现def search(): try: # 我们要确保所有元素加载完成,所以需要一个判断 # 谷歌搜索python seleni...
2019-07-20 09:54:19 426
原创 Http中Query string parameters的含义
这里还是记录一下吧,防止自己忘记了。其实就是get请求中url后面要带的参数。也就是说,向对应网址服务器传递这些参数就可以获得请求的内容,属于爬虫的基础知识。如,根据这张图片的内容,可以这么传递参数data={ 'aid':24, 'app_name':'web_search', ……}url='http……………………/?'+urlencod...
2019-07-19 09:59:17 31573 7
原创 Python爬虫进行Cookie登录
不太喜欢说废话,直接开始。一、首先找到发送登录请求(post或get)的url:可以用抓包工具来进行捕捉,我用的工具是fiddler。fidder的安装及使用方法大家自行百度。这里假设大家已经安装成功并且会使用该工具。(还是提醒一点吧,此工具与其他的工具有点不同,代理端口是8888,而不是8008)当然也可以不用抓包工具,用浏览器的F12功能也可以看见:首先,以一个需要登录之后...
2019-07-17 14:58:09 2551
原创 MongoDB安装方法
MongoDB 下载MongoDB 提供了可用于 32 位和 64 位系统的预编译二进制包,你可以从MongoDB官网下载安装,MongoDB 预编译二进制包下载地址:https://www.mongodb.com/download-center#community根据你的系统下载 32 位或 64 位的 .msi 文件,下载后双击该文件,按操作提示安装即可。安装过程中,你可以通...
2019-07-16 15:50:25 172
转载 MongoDB 可视化工具 MongoDB Compass 使用【转】
下载打开官网,如图所示找到下载界面选择版本下载安装运行下载的EXE文件,自动安装。安装完成会弹出主界面。连接MongoDBMongoDB服务默认没有身份验证,所有客户端都可以连接访问。连上之后,可以看到,有三个默认数据库创建数据库点击左侧加号按钮填入数据库名称和集合名称(这里“集合”的意义类似MySQL表),注意一定要填写集合名称,否则报错无法创建。也就是说使...
2019-07-16 15:36:11 1120
计算机网络实验课码分多址CDMA.代码zip
2019-11-01
zhilian1.zip
2019-08-17
C#winform窗体+socket实现登录通信聊天软件(可私聊与群聊)
2019-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人