Scrapy
羊族的希望
坚持方能有所成就。
展开
-
Python3 Scrapy网络爬虫环境搭建(Windows平台)
安装过程安装基础环境1.Python安装https://www.python.org/downloads/windows/安装Python安装包,一路Next将Python的安装目录添加到环境变量Path中win + r 输入Cmd打开命令行窗口,输入Python 测试是否安装成功2.安装piphttps://pypi.python.org/pypi/pippip的...原创 2018-09-08 00:17:18 · 371 阅读 · 0 评论 -
scrapy学习之爬取顶点小说数据(转)
1.爬取网站https://www.x23us.com2.转出处https://cuiqingcai.com/3472.html3.遇到的问题3.1 mysql的模块导入问题修改为pymysql3.2 scrapy默认安装的python版本问题最开始默认是安装到python2.7版本,后面需要重新安装到python3.5的版本3.3 顶点网站改为https://...原创 2018-09-29 17:24:38 · 304 阅读 · 0 评论 -
scrapy爬取cnnvd网址数据
附上GitHub链接https://github.com/luweiwei1111/python_spider/tree/master/scrapy/cnnvd说明:1.本程序用于爬取cnnvd网址的数据,并将数据通过sqlite3数据库保存在cnnvd.db库文件里面,里面有两张表:cve_cnnvd_cn 保存cnnvd的相关信息 cnnvd_url ...原创 2018-10-09 18:11:41 · 1147 阅读 · 0 评论 -
python爬虫基础
爬虫爬虫,全称网络爬虫,指按照一定的规则(模拟浏览器人工登录网页的方式),自动抓取网络信息数据的程序。简单的说,就是将浏览器上网所能看到页面上的内容通过爬虫程序自动获取下来,并进行存储。爬虫其实就是一个程序自动收集获取指定网络数据信息的过程,网络数据信息量十分庞大,人工获取无法完成,这时就需要爬虫来完成了。另外做数据挖掘、数据分析也是需要大量的数据做实验基础,爬虫就能很好的获得数据。理论...原创 2018-12-05 10:13:10 · 394 阅读 · 0 评论 -
xpath helper安装和使用方法
1.下载百度网盘:pan.baidu.com/s/1phXPKllX0-BA7IDxPGRhZA密码:yuuv2.安装2.1 在导航栏中输入chrome://extensions,拖拽到浏览器,发现安装失败,此时将xpath-helper.crx修改后缀为rar,即:xpath-helper.rar,然后解压到到一个目录。2.2 google浏览器打开开发者模式,然后点“加载已...原创 2019-01-14 11:18:36 · 17262 阅读 · 4 评论 -
scrapy结合selenium进行动态加载页面内容爬取
动态页面和静态页面比较常见的页面形式:动态页面静态页面例如:import requestsresponse = requests.get('https://www.baidu.com')print(response.text.encode('raw_unicode_escape').decode())但是动态页面使用上述操作后发现,获取到的内容与实际相差很大。例如...原创 2019-01-14 13:53:43 · 1564 阅读 · 0 评论 -
selenium模拟登录
from selenium import webdriverfrom PIL import Imageimport pytesseractimport os,timechromedriver = "D:\Program Files\Anaconda3\selenium\webdriver\chromedriver.exe" #这里写本地的chromedriver 的所在路径os.env...原创 2019-01-14 16:54:47 · 1052 阅读 · 0 评论