python爬虫
这里会分享一些关于python爬虫的相关知识
Dream____Fly
这个作者很懒,什么都没留下…
展开
-
python爬虫前的准备
1、爬虫概念 爬虫:写一段代码,去指定的url(网站)去获取指定的数据 互联网:或联网中,给你一个起始url,比如:www.baidu.com,互联网中的节点都是一个al链接,或者称之为url1.1通用爬虫:百度,搜狗,google,雅虎,bing1.1.1他们的工作: 1.爬取所有信息 2.主动提交url3.百度主动和域名服务商合作1.1.2如果不想让百度抓取?robot...原创 2019-08-13 23:30:16 · 261 阅读 · 0 评论 -
python爬取京东商品评论--jsonpath方法
直接送上代码import urllib.requestimport jsonimport jsonpathimport timeend_page = int(input('请输入爬取的结束页码:'))for i in range(0,end_page+1): print('第%s页开始爬取------'%(i+1)) url = 'https://sclub.jd.co...原创 2019-08-17 21:27:31 · 1234 阅读 · 2 评论 -
正则,bs4 ,xpath 和jsonpath 的匹配规则
正则匹配: 规则 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、字母、下划线、中文 \W : 非\w \s :所有的空白字符 \S : 非空白 数量修饰: * : 任意多次 >=0 + : 至少...原创 2019-08-17 21:18:06 · 925 阅读 · 0 评论 -
python爬虫模拟登陆两种方法
第一种:post提交密码与账号,进行访问import urllib.requestimport urllib.parseimport http.cookiejar#在代码中保存cookie#创建一个cookiejar对象cj = http.cookiejar.CookieJar()#通过cj创建一个headlerhandler = urllib.request.HTTPCook...原创 2019-08-16 16:48:43 · 1536 阅读 · 0 评论 -
python爬虫xpath方法
这里利用python爬取了站长之家的图片,代码如下from lxml import etreeimport urllib.request,os,timeclass OuMeiSpider(object): def __init__(self,start_page,end_page): self.start_page = start_page self...原创 2019-08-16 16:40:45 · 608 阅读 · 0 评论 -
python爬取51job网
废话不说了,直接展示代码!!!import urllib.requestfrom bs4 import BeautifulSoupimport reimport time'''项目目标:51job爬取职业,地区,薪资,工资,公司,首先根据url爬取整个网页其次根据爬取的页面获取所要的数据最后用字典一一保存,最后保存在文件夹中'''class python_job(): ...原创 2019-08-16 16:37:51 · 1133 阅读 · 1 评论 -
python爬虫bs4方法
这里只爬取了三国演义整本书from bs4 import BeautifulSoupimport urllib.requestimport timedef get_string(href): request = get_request(url=href) response = urllib.request.urlopen(request) content = re...原创 2019-08-16 16:35:37 · 404 阅读 · 0 评论 -
python爬取糗事百科的图片
利用python爬取就是百科的所有图片'''拼接url,发送请求得到响应内容,分析相应内容,保存数据'''import urllib.requestimport reimport osimport timedef get_request(new_url): hearders = { 'User-Agent': 'Mozilla/5.0 (Windows NT...原创 2019-08-15 09:32:14 · 602 阅读 · 0 评论 -
python爬取百度贴吧
利用python爬取百度贴吧的网页,输入贴吧名,起始页,终止页,爬取索要爬取的页面贴吧'''import urllib.requestimport urllib.parseimport timeimport os#输入贴吧名字-起始页码-终止页码bname = input('请输入贴吧名字:')start = int(input('请输入起始页码:'))end = int(...原创 2019-08-15 09:27:24 · 612 阅读 · 0 评论 -
python爬虫的四种思路方法
普通的get请求以百度搜索为例子'''输入所要搜索的人物,返回搜索界面,将文件保存在文件中'''import urllib.parseimport urllib.request#输入关键字kw = input("请输入关键字:")url = "https://www.baidu.com/s?"#get参数data = { 'ie':'utf8', 'wd':...原创 2019-08-15 09:22:30 · 752 阅读 · 0 评论 -
python爬取全国公交线路---bs4方法
这里主要讲了bs4解析方法和json方法,以8684网页为例子,爬取了全国公交线路import requestsimport timefrom bs4 import BeautifulSoupimport jsonfrom xpinyin import Pinyinheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;...原创 2019-08-20 09:43:19 · 1568 阅读 · 0 评论 -
python爬取欧美美女图片---xpath方法
这里爬取的是http://sc.chinaz.com/tag_tupian/OuMeiMeiNv.html网站献上欧美美女!!!!from lxml import etreeimport urllib.request,os,timeclass OuMeiSpider(object): def __init__(self,start_page,end_page): ...原创 2019-08-20 09:38:20 · 3391 阅读 · 0 评论 -
python爬取苏宁易购--jsonpath方法
苏宁的爬取和京东的爬取是一样的,方法类似这是爬取京东的例子:https://blog.csdn.net/Dream____Fly/article/details/99698222import urllib.requestimport json,jsonpathurl = 'https://review.suning.com/ajax/cluster_review_lists/gener...原创 2019-08-20 09:33:41 · 2065 阅读 · 10 评论 -
python爬虫urllib的request与parse方法
在爬虫前,需要知道这两个知识点!!!字符串转字节类型str --> bytesencode()字节类型转字符串bytes --> strdecode()1.以一个简单的例子讲解urllib.request方法read 读取相应内容,内容geturl 获取请求的urlgetheaders 获取头部信息getcode 获取状态码readlines 按行读取,返回列表...原创 2019-08-13 23:54:32 · 1220 阅读 · 0 评论 -
python爬取快手视频--json数据分析
打开快手主页,进行页面分析对于快手这种平台,分析完页面代码之后,无任何想要的信息,所以,只能进行json数据的抓取,这些视频都是通过json语句传给前段,然后进行循环生成,所以,我们来看抓的json包然后进行详情页链接分析接下来看json数据补充一下,这里由于页面刷新了,所以看到的两个链接不一样,方法就是这样的然后拼接出来二级路径,进行访问详情页最后在详情页按照常规方法进行分...原创 2019-08-23 11:48:33 · 9775 阅读 · 10 评论