爬虫
文章平均质量分 57
千语_肉丸子
好好学习、天天向上
结交各种大牛、共同进步
展开
-
python爬虫之Beautiful Soup学习笔记01
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,...原创 2018-05-23 19:06:54 · 293 阅读 · 0 评论 -
利用python抓取搜狗指数学习笔记
1.搜狗指数强调下:搜狗指数抓取真的很简单、很简单、很简单,大家一定不要被吓到,哈哈哈哈。搜狗指数是一个指数指标,能够反应出来每天人们搜索的趋向,每天都有搜索变化表以及随机搜索内容。本来打算爬取百度指数,但是百度的反爬虫做的很好,均要解析图片,因此先以搜狗进行学习,后续进行百度指数爬取。先看一下搜狗关键词主界面进入开发者模式:XHR出现链接,刚开始点开是没有的,可以点一下P...原创 2018-09-27 17:44:49 · 1494 阅读 · 0 评论 -
利用代理IP爬取京东网站手机数据
1.代理简介 在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就会降低IP被封的可能性。 代理(英语:Proxy),也称网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个服务与另一个网络终端(一般为服务器)进行非直接的连接...原创 2018-09-26 17:25:16 · 1752 阅读 · 0 评论 -
python抓取京东历史促销信息并做统计分析的学习笔记
参考链接:http://www.sohu.com/a/214617344_654419github链接: https://github.com/hscheng/python参考博文和github均有详细代码,本文记录自己学习过程,初始链接:https://www.jd.com/moreSubject.aspx,分析网页内容,标红的页面开始是没有的,多点几个页面就会出现打开链接出...原创 2018-08-23 19:10:05 · 1470 阅读 · 0 评论 -
python爬虫代理学习笔记
当同一ip短时间内多次链接同一网站,很可能导致ip被封,为了避免远程服务器封锁IP,或者想加快爬取速度,一个可行的方法就是使用代理IP,我们需要做的就是创建一个自己的代理IP池。思路1.从代理网站爬取IP地址及端口号并存储 (以西刺代理为例)2.验证ip能否使用并将能使用的IP和端口号存储起来3.从代理池中随机选择一个IP进行爬去验证具体实现1.爬取代理fr...原创 2018-08-14 23:08:13 · 267 阅读 · 0 评论 -
利用selenium+PhantomJs/Chrome爬取医疗网站医院信息学习笔记
今天学习爬取一个医疗网站的医院数据,html页面有属性和标签,返回的请求也有属性和标签,但是用BS\re等均匹配不到数据,简直是无语了,后来通过查找资料发现页面被JS渲染了,利用普通的规则是无法获取数据的,但phantomjs很好的解决了这个问题。 PhantomJS 是一个基于WebKit的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速...原创 2018-08-10 14:19:33 · 2003 阅读 · 0 评论 -
python爬虫之利用scrapy框架抓取新浪天气数据
scrapy中文官方文档:点击打开链接Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试,Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫...原创 2018-06-01 15:18:21 · 1440 阅读 · 0 评论 -
python爬虫之Xpath和lxml学习笔记03
XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。 [1] 起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。...原创 2018-05-30 13:07:52 · 465 阅读 · 0 评论 -
利用scrapy抓取豆瓣top250数据并进行分析学习笔记
上一篇爬虫文章记录了利用scrapy爬去西安天气数据,本文主要是记录在学习中利用scrapy爬去豆瓣top250的电影并进行分析数据过程。 1.建立一个爬虫项目scrapy startproject douban2.在spider中建立douban爬虫文件3.配置items.py文件4.配置settings.py文件USER_AGENT换成自己...原创 2018-06-12 19:36:50 · 1402 阅读 · 0 评论 -
python爬虫之CSS学习笔记02
以百度首页为测试:import urllib2response = urllib2.urlopen("http://www.baidu.com")print (response.read())报如下错误原因:,在python3.3里面,用urllib.request代替urllib2,改成如下import urllib.requestresp=urllib.request.urlopen('...原创 2018-05-23 19:44:22 · 164 阅读 · 0 评论 -
Scrapy环境搭建及解决方案
刚开始学Python爬虫,在安装环境时遇到一些问题,本文整理了一下搭建过程中遇到的问题,供大家参考:备注:当在dos中执行已安装的命令式,若不能识别请配置环境变量(windows为例)一:安装步骤:1:安装Python本人安装的为Anaconda集成环境(集成一些工具包方便后续其他环境的配置)2:安装pip相关网站下载get-pip.py文件, dos下执行Python g...原创 2017-01-25 15:06:01 · 588 阅读 · 0 评论