![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 76
Shao0000
这个作者很懒,什么都没留下…
展开
-
爬虫---设置handler:
设置handler:from urllib import request, parseurl = "https://fanyi.baidu.com/v2transapi"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chr...原创 2018-12-07 09:22:48 · 282 阅读 · 0 评论 -
爬虫---爬取80s网站6页(所有)的喜剧电影2:
爬取80s网站6页(所有)的喜剧电影2:以下是在创建的scrapy项目的中的更改:在settings.py中:# 1.伪装成浏览器USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'...原创 2018-12-06 21:57:00 · 1949 阅读 · 0 评论 -
爬虫---爬取80s网站6页(所有)的喜剧电影:
爬取80s网站6页(所有)的喜剧电影:以下是在创建的scrapy项目的中的更改:在settings.py中:# 1.伪装成浏览器USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'...原创 2018-12-06 21:51:28 · 2012 阅读 · 0 评论 -
爬虫---爬小说案例:
爬小说案例:from urllib import requestimport requestsfrom bs4 import BeautifulSoupurl = "http://www.shicimingju.com/book/rulinwaishi.html"headers = {'Host': 'www.shicimingju.com', 'Connec...原创 2018-12-05 20:26:02 · 1902 阅读 · 0 评论 -
爬虫---解析内容(jsonpath)
解析内容(jsonpath):jsonpath使用方法:json:import json"""dump 把json字符串写入文件load 读取文件中的json对象dumps 把python对象转换为json字符串loads 把json字符串转换为python对象"""da_lao_list = { "stars": { "No1"...原创 2018-12-05 19:54:26 · 722 阅读 · 0 评论 -
爬虫---解析内容(xpath):
解析内容(xpath):str转换为Element对象:from lxml import etreetext = """<bookstore><book> <title lang="eng">Harry Potter</title> <price>29.99</price>原创 2018-12-05 19:53:12 · 248 阅读 · 0 评论 -
爬虫---解析内容(BeautifulSoup4):
解析内容(BeautifulSoup4):创建Beautiful Soup对象:# 创建 Beautiful Soup 对象soup = BeautifulSoup(html)# 打开本地 HTML 文件的方式来创建对象# soup = BeautifulSoup(open('index.html'))搜索文档树:1.find_all() :find_all(name, att...原创 2018-12-05 19:52:06 · 135 阅读 · 0 评论 -
爬虫---解析内容(正则):
解析内容(正则):re模块常用方法:1.pattern.match(从头找一个)2.pattern.search(找一个)3.pattern.findall(找所有)返回一个列表,没有就是空列表re.findall("\d","chuan1zhi2") >> ["1","2"]4.pattern.sub(替换)re.sub("\d","_",&q原创 2018-12-05 19:50:30 · 298 阅读 · 0 评论 -
爬虫---发起请求获得响应的方式有两种:
发起请求获得响应的方式有两种:1.urllib:from urllib import requesturl = "http://www.baidu.com"headers = { ......}#创建一个request对象request1 = request.Request(url=url, headers=headers)#发送请求,返回一个response对象res...原创 2018-12-05 19:50:06 · 1366 阅读 · 0 评论 -
爬虫(一)爬虫入门
一、为什么学习爬虫大数据时代,根据数据分析用户购买意向,从而进行商业相关调整。只要是浏览器中用户能拿到的,原则上爬虫都可以爬到。反爬:资源同等,爬虫胜利。爬虫黑客的区别:爬虫:灰色地带,带账号权限操作,只是一种便利的获取数据。黑客:违法,免爬取,付费。二、爬虫的分类:通用爬虫:搜索引擎和大型web服务提供的爬虫。弊端:冗余多,占容量。不精准。聚焦爬虫:针对特定网站的爬虫,定...转载 2018-11-30 19:40:00 · 186 阅读 · 0 评论 -
爬虫(二)代理
一、为什么要使用代理让服务器以为不是同一个客户端在请求防止我们的真实地址被泄露,防止被追究(嗯,还是不要太高调,闷声爬就好了)正向代理与反向代理正向代理:对于浏览器知道服务器的真实地址,例如VPN反向代理:浏览器不知道服务器的真实地址,例如nginx代理的使用用法: requests.get("http://www.baidu.com", proxies = p...转载 2018-11-30 19:30:21 · 102 阅读 · 0 评论 -
爬虫的基本流程
1、发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息。2、获取响应内容 :如果服务器正常响应,那我们将会收到一个response,response即为我们所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。3、解析内容 :如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行...原创 2018-11-30 19:25:56 · 2088 阅读 · 0 评论 -
爬虫(一)初识爬虫
1 什么是爬虫网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做 2 爬虫的更多用途 12306抢票 网站上的投票 短信轰炸 3. 爬虫的分类在上一小结中,我们介绍爬虫...转载 2018-11-30 18:43:55 · 156 阅读 · 0 评论 -
再学爬虫---selenium:
再学爬虫—selenium:selenium是一个自动化测试工具,利用它可以驱动浏览器完成指定操作。使用之前要声明浏览器对象:from selenium import webdriverbrowser=webdriver.Chrome() #谷歌浏览器browser=webdriver.Firefox() #火狐浏览器browser=webdriver.Edge() ...原创 2019-04-21 14:15:38 · 130 阅读 · 0 评论