网络爬虫
Java不是C
用技术改变金融,用金融和技术改变人类!
展开
-
scrapy爬虫多个条件获取字段
[root@bogon Desktop]# scrapy shell 'https://ssl.700du.cn/prod/GAB.html'>>> sel.xpath('//div[contains(@class,"tb-wrap")]/ul/li[contains(div/text(),"'+u'保险公司'+'")]/div/a/text()|//div[contains(@class原创 2016-10-21 16:38:52 · 1933 阅读 · 0 评论 -
笔记之Python网络数据采集
笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息通常, 有api可用, api会比写网络爬虫程序来获取数据更加方便.Part1 创建爬虫Chapter1 初建网络爬虫一旦你开始采集网络数据, 就会感受到浏览器为我们所做的所有细节, 它解转载 2017-03-16 15:20:10 · 2439 阅读 · 0 评论 -
scrapy selenium 爬虫
1、虚拟机关闭后找不到系统了,查找我的文档下面的vmk文件,发现都不是正确的系统。按F9,虚拟机左侧显示出各种虚拟机,找到了使用的虚拟机,位置在d:/scrapy2、发现可以ping通百度,但虚拟机里面的火狐浏览器无法上网,原因是公司内部使用代理服务器上网,设置代理,成功上网。3、使用pip install安装selenium原创 2016-11-24 17:42:32 · 2761 阅读 · 0 评论 -
redhat系统安装scrapy爬虫框架步骤Python版
1、配置本地yum把Redhat6.5系统ISO镜像文件复制到/rootmkdir /yumcd /etc/yum.repos.dcp rhel-source.repo iso.repomv rhel-source.repo rhel-source.repo.bakvim /etc/yum.repos.d/iso.repo更新yum原地址:点i,进入vim原创 2016-10-19 16:43:15 · 977 阅读 · 0 评论 -
scrapy爬虫保存为csv文件的技术分析
由于工作需要,将爬虫的文件要保存为csv,以前只是保存为json,但是目前网上很多方法都行不通,主要有一下两种:from scrapy import signalsfrom scrapy.contrib.exporter import CsvItemExporterclass CSVPipeline(object): def __init__(self): self.f原创 2016-11-15 17:11:17 · 17244 阅读 · 8 评论 -
Scrapy+Selenium+Phantomjs Demo
Scrapy+Selenium+Phantomjs Demo发表于 2016-08-19 | 7条评论 | 阅读次数 724 前段时间学习了用Python写爬虫,使用Scrapy框架爬取京东的商品信息。商品详情页的价格是由js生成的,而通过Scrapy直接爬取的源文件中无价格信息。 通过Selenium、Phantomjs便能实现。下面先介绍Phanto转载 2017-03-14 17:14:22 · 1380 阅读 · 0 评论 -
Python验证码识别:利用pytesser识别简单图形验证码
原文出处: j_hao104 一、探讨识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域…… 简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处转载 2017-03-14 15:40:14 · 1542 阅读 · 0 评论 -
反爬虫技术
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发转载 2017-03-13 11:28:18 · 383 阅读 · 0 评论 -
字符型图片验证码识别完整过程及Python实现
字符型图片验证码识别完整过程及Python实现1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越来越严峻。本文介绍了一套字符验证码识别的完整流程,对于验证码安全和OCR识别技术都有一定的借鉴意义。2 关键词关键词:安全,字符图片,验证码识别,OCR,Python,SV转载 2017-03-17 16:13:04 · 1686 阅读 · 0 评论 -
scrapy框架爬虫将数据保存到MySQL数据库(20170214)
2017年02月14日今天是情人节,可是。。。。。。人嘛,灵魂的孤独也是一种生活上面的老大要求爬取全国58同城的各个租房数据,打算继续保存到MySQL数据库,由于这个网站的页面信息和以前的爬取网站不同,所以新建了一个item,如下:修改pipelines.py文件:接下来在navicat for mysql 中创建FangwuItem原创 2017-02-14 18:22:12 · 1206 阅读 · 0 评论 -
scrapy 安装数据库mysql错误汇总和操作步骤
操作步骤: 1、检查python是否支持mysql[root@bogon ~]# pythonPython 2.7.10 (default, Jun 5 2015, 17:56:24) [GCC 4.4.4 20100726 (Red Hat 4.4.4-13)] on linux2Type "help", "copyright", "credits" or "license原创 2016-11-17 10:44:52 · 1938 阅读 · 0 评论 -
Linux下面安装网络爬虫scrapy不成功原因分析
1、使用pip install Scrapy -d /home/source pip install scrapy-redis -d /home/source等pip命令无法安装成功,报错如下下载安装包安装,无法使用,截图如下:解决方式:使用如下命令:easy_install -U Scrapy结果报错,提示pyopenssl必须大于0.12原创 2016-10-18 10:49:17 · 890 阅读 · 0 评论 -
Python爬虫:Xpath语法笔记【转载】
一、选取节点常用的路劲表达式:表达式描述实例 nodename选取nodename节点的所有子节点xpath(‘//div’)选取了div节点的所有子节点/从根节点选取xpath(‘/div’)从根节点上选取div节点//选取所有的当前节点,不考虑他们的位置xpath(‘//div’)选取所有的转载 2016-10-28 10:50:37 · 303 阅读 · 0 评论 -
为何大量网站不能抓取?爬虫突破封禁的6种常见方法
在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 Jav转载 2017-03-16 17:51:52 · 2813 阅读 · 0 评论