python爬虫
文章平均质量分 55
Hathaway321
这个作者很懒,什么都没留下…
展开
-
1 python爬虫-什么是爬虫
网页组成:html 骨架,css这个页面的衣服是什么颜色的,js动态执行语言1 cookies 反爬会用到,告诉服务器前后页面其实是同一个人登陆通用的网络爬虫框架 四种如何编写爬虫,架构三大步urllib 和requests 两个重要的库ps:造数网站可以轻易爬虫,但是貌似收费。原创 2018-01-30 23:12:40 · 976 阅读 · 0 评论 -
8 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝)
Selenium 是一个用于浏览器自动化测试的框架,可以用来爬取任何网页上看到的数据。selinim,京东淘宝反爬严重http://http://npm.taobao.org/mirrors/chromedriver/2.33/环境变量设置:我的电脑-右键属性-高级设置-环境变量--注意环境变量添加好后,需要重启pycharm,不然报错。原创 2018-02-02 22:00:35 · 1694 阅读 · 0 评论 -
9.5 Scrapy项目管道爬取58实战代码
spider文件:yield函数 ,这个函数没有结束,还可以继续返回,这里千万不能return,return就结束了1条数据。这才yield出去到管道,才管道开始了。yield item是yield到管道,yield request是yield到调度器。管道文件pipline.py文件天生有一个管道,但是这个管道里面什么都没有。之前讲过管道有4个函数。首先打开一个文件,pr原创 2018-02-02 21:58:13 · 711 阅读 · 0 评论 -
9.3 scrapy选择器的用法,css,xpath,正则。pyquery
scrapy至少有三种选择器,很大很多。理论上学会两种就够用了。项目组都用一个选择器最好了。一定要学会正则表达式。第一种介绍CSS选择器标签成对出现。div,p不管div和p有什么关系,都搜索出来div p 选择div下的所有p元素可以是父子关系也可以是爷孙关系等。div>p 这个只能是父子关系。还有一个函数 extract_first(原创 2018-02-02 21:57:40 · 2081 阅读 · 0 评论 -
9.4 Scrapy的项目管道
这些组件最重要的思路就是拦截,即过滤item管道:作用一:入库校验:一是可以在管道,但主要是在item定义字段校验管道是什么Item管道(Item Pipeline):主要负责处理有蜘蛛从网页中抽取的Item,主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据。每个Item管道的组件都是有一个简单的方法组成的Pyth翻译 2018-02-02 21:54:36 · 511 阅读 · 0 评论 -
9.2 scrapy安装及基本使用
https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载即可。安装完方法2 后需要回到方法1继续安装,不是说方法2完成后,scrapy就安装好了。报错情况下安装下面的twisted而不是上面lxmlScrapy爬虫的使用一个基本的爬虫只需要两部分组成:Spider(爬虫)、Pipeline(管道)。管道是什么?每个项目管道组翻译 2018-02-02 21:47:53 · 452 阅读 · 0 评论 -
9.1 爬虫工程师及Scrapy框架初窥
蜘蛛的作用是进行各种数据匹配翻译 2018-02-02 21:47:05 · 297 阅读 · 0 评论 -
9.5 58同城scrapy爬取代码示例及存入Mongodb中
案例:爬取58同城爬取58同城步骤如下: - 在命令行输入 scrapy startproject city58,使用cd city58进入项目目录,使用scrapy genspider city58_test 58.com生成爬虫访问58同城网站,打开开发者工具,查看elements查找含有目标信息的元素,提取目标网页的url,填入新建的Scrapy项目中Spider文件下的sta翻译 2018-02-02 21:37:13 · 833 阅读 · 0 评论 -
9.6 笔记:scrapy爬取的数据存入MySQL,MongoDB
使用python:2.7.12一、MongoDB 一个小例子1 2 1.spider:dmoz_item.pyfrom dmoz.items import DmozItemclass DmozItemSpider(scrapy.Spider): name = "dmoz_item" #allowed_domains = ["dmoz.org"翻译 2018-02-02 21:28:31 · 575 阅读 · 0 评论 -
6 浏览器抓包及headers设置(案例一:抓取知乎) jason格式
翻页后url不变今日头条url也没有变化翻页左侧多了chorm中josonview插件所以加入不一样的请求头:headershttp://www.zhihu.com/api/v4/people/112 根据经验把api删掉即可打开这个链接第一个参数固定是url不用指定,后面的参数需要指明。headers字典。下面是翻页翻译 2018-02-01 17:11:48 · 2675 阅读 · 0 评论 -
5 pandas报存数据
with open 方法for 循环写入 点write一译中文官方文档:http://python.usyiyi.cn/爬取《小王子》豆瓣短评的数据,并把数据保存为本地的excel表格import requestsfrom lxml import etreeurl = 'https:翻译 2018-02-01 17:09:23 · 316 阅读 · 0 评论 -
4 使用xpath解析豆瓣短评
建议用xpath不用beatifulsoup第二种手写xpath完整代码import requestsfrom lxml import etreeurl ='https://movie.douban.com/subject/6874741/comments?status=P'r = re翻译 2018-02-01 17:06:57 · 667 阅读 · 0 评论 -
3 使用requests爬取豆瓣点评及爬取网页通用框架完整代码
三个箭头代表在python环境下pip list首先分析是否是javascript加载另一种方法是查看网站源代码timeout=20 是超时等待时间我们所做的就是把url放进去红圈部分。爬取网页通翻译 2018-02-01 17:02:15 · 617 阅读 · 0 评论 -
7.1 python拉勾网实战并保存到mongodb
拉钩网实战爬取拉勾网有关“爬虫”的职位信息,并把爬取的数据存储在MongoDB数据库中首先前往拉勾网“爬虫”职位相关页面确定网页的加载方式是JavaScript加载通过谷歌浏览器开发者工具分析和寻找网页的真实请求,确定真实数据在position.Ajax开头的链接里,请求方式是POST使用requests的post方法获取数据,发现并没有返回想要的数据,说明需要加上headers加翻译 2018-02-01 16:58:18 · 1282 阅读 · 0 评论 -
7 数据库入库及拉钩网站爬取及mogodb及可视化安装
mongodb安装链接:https://zhuanlan.zhihu.com/p/29986675更改命令路径出现错误时可以关闭电脑删除lock文件即可。然后控制面板启动mongodb服务。mogodb在pycharm中的使用操作数据库的简单实验代码通用代码:#! /usr/bin/env python #表示用python写的# -*- cod翻译 2018-02-01 16:55:38 · 321 阅读 · 0 评论 -
2.2 urllib和requests库书写代码以及完整豆瓣当页影评爬取代码
import urllib.request#导入urllib.request包和库f = urllib.request.urlopen('http://www.baidu.com')#打开网址,返回一个类文件对象f.read(500)#打印前500字符print(f.read(500).decode('utf-8'))#打印前500字符,并修改编码为utf-8import原创 2018-01-31 01:07:54 · 414 阅读 · 0 评论 -
2 初始爬虫
创建第一个案例,一般用第三方库和内置库-urllib库-requests库aikspath(通用的不可能像上面这么简单)用的是from 什么 import 什么 p标签,class属性beautifulsoup介绍:https://www.cnblogs.com/blackclody/p/6911559.html原创 2018-01-31 01:03:55 · 381 阅读 · 0 评论 -
8.1 淘宝实战selinum代码完整
案例三:爬取淘宝)1 mongodb打开方法之前讲过。+++2 如果用requests的方式需要准备一定量的ip,所以此次采用selinum方式3 注意此次使用pyquery解析,和前端挂钩。--------------------------------------------------------------------------------实战环节爬取淘宝网有关“鞋子原创 2018-02-02 22:04:26 · 3559 阅读 · 0 评论