![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python3爬虫基础
s_kangkang_A
后来许多人问我一个人夜晚踟蹰路上的心情,我想起的却不是孤单和路长,而是波澜壮阔的海和天空中闪耀的星光。
展开
-
python3爬虫学习之数据提取之lxml与xpath
今天了解一下xpath提取信息的规则先推荐一个在谷歌浏览器帮助做xpath语法分析的插件xpath-helper,具体教程和资源在网上有下面开始了解一下xpath和lxml结合使用的基本操作依旧以腾讯社招的html页面为例<tbody><tr class="h"> <td class="l" width="374">职位名称&l...原创 2019-04-03 22:05:52 · 877 阅读 · 0 评论 -
python3爬虫学习之生产者消费者爬取实战
按照课程做了个生产者消费者爬取的实战,下载图片先上代码import threadingimport requestsfrom lxml import etreeimport osfrom urllib import requestfrom queue import Queueclass Producer(threading.Thread): headers = {...原创 2019-04-11 17:03:23 · 652 阅读 · 0 评论 -
python3爬虫学习之数据提取之beautifulsoup
介绍一个非常简单的,常用的数据提取库,BeautifulSoup来提取想要的数据以腾讯社招为例,下面是从腾讯社招爬下来的html页面用这个页面来理解BeautufulSoup的提取规则和基本常用方法html = """<tbody><tr class="h"> <td class="l" width="374">职位名称</...原创 2019-04-02 21:21:17 · 590 阅读 · 0 评论 -
python3爬虫学习之数据存储CSV
关于CSV:https://baike.baidu.com/item/CSV/10739?fr=aladdin这里不多赘述了所有代码基于此:import csv一:数据写入1,普通写入的两种方式单行写入with open("student.csv" , "w" , newline="" , encoding="utf-8") as fp: studen...原创 2019-04-08 20:48:46 · 456 阅读 · 1 评论 -
python3爬虫学习之selenium+chromedriver基础
现在大多网站都运用了Ajax渲染,那么用以前的方法去分析爬取就会有一定的困难关于Ajax,可以看这里:https://baike.baidu.com/item/ajax/8425?fr=aladdin这里介绍的selenium+chromedriver就能帮我们解决Ajax爬取分析的困难,这里介绍一下基础用法首先,我们需要安装selenium,这个很简单,pip即可,推荐换源安装,...原创 2019-04-13 01:11:51 · 724 阅读 · 0 评论 -
python3爬虫学习之实战无限下载百度图片
由于做项目需要大量图片,应我同学的要求,帮他爬取大量百度图片当做练习,这里写出来记录一下我们首先分析一下百度图片的页面和获取规则随便输入一个关键字,我们下滑图片页面,同时检查,就可以发现,它是通过Ajax请求一直获取图片之前正好也做了爬取微博的例子,想来是差不多,于是我们分析一下Ajax请求链接我们看到请求URL,多分析几条就能发现,它几乎是不变的,而变化的几条分别是,pn...原创 2019-04-16 22:35:15 · 3115 阅读 · 0 评论 -
python3爬虫学习之Ajax分析微博爬取储存mongo实战
前一段时间看了崔庆才老师的书,爬取微博信息,于是想写一个爬取微博信息的爬虫,这里爬一个我比较喜欢的女明星的微博,谭松韵。首先说明一点,微博真的是坑,https://www.weibo.com/和https://m.weibo.cn差距是真的大崔庆才老师是按下面的微博讲的,而我被上面一个微博盘了一下午,心态爆炸。好了,先上代码,因为崔庆才老师的书虽然不算旧,但网站一直在变...原创 2019-04-14 16:37:58 · 513 阅读 · 3 评论 -
爬虫实战—文章吧故事爬取
遵循一个网站盘一天的思想。当你朋友做网站需要大量素材时,学爬虫的你,当然是毫不犹豫的爬给他。这篇博客记录一下爬取感人文章的一个小爬虫,有需要规避的地方及解决方法也会列出。本来想着会是很规范的网站,直接用xpath语法会很简单,结果往往事与愿违:resp = requests.get(url,headers)text = etree.HTML(resp)urls = tex...原创 2019-04-23 18:16:05 · 763 阅读 · 2 评论 -
无法解析的Ajax,selenium+chromedriver实战爬取
对于有规律的Ajax请求,我们可以分析它的特点,从而抓取一个又一个的Ajax去获取请求,但,有些网站为了反爬,它的Ajax是没有规律的,我们举个例子,拉勾网我们进入拉勾网,搜索python,检查,切换到network,过滤请求,这里只要Ajax请求,下滑到底部,点击下一页:图中标有1,2的两个请求,就是包含职位信息的Ajax请求,分别是第一页的和第二页的,我们可以发现,两个Reques...原创 2019-04-19 15:20:25 · 663 阅读 · 2 评论 -
爬虫关于ip代理的使用
简单记录一下几种常用的使用ip代理的方法下面代码里的所有ip都是从代理网站拿的,可用性极低1,urllib#urllib设置ipfrom urllib.error import URLErrorfrom urllib.request import ProxyHandler,build_opener#proxy的格式为ip:端口号proxy = "60.13.42.8:999...原创 2019-05-25 22:12:57 · 2644 阅读 · 0 评论 -
python3爬虫学习之生产者与消费者爬虫
我们将了解到两个版本的消费者与生产者的实例一,Lock版import threadingimport randomimport time#假设有5个消费者3个生产者,生产者的赚钱区间为100-1000元,消费者的消费区间100-1000,# 要求生产者只生产10次,消费者无消费次数要求#当余额低于消费时给出余额不足的提醒#当存款小于最低消费额时,结束程序#设置初始余额1...原创 2019-04-11 16:35:42 · 628 阅读 · 1 评论 -
python3爬虫学习之多线程初入
在这里首先上两段代码了解一下使用多线程和不使用多线程的区别,从而了解多线程的用处一,1,不使用多线程import time#未使用多线程,运行该程序需大概6秒def speaking_demo(): for x in range(3): print("我在说话 %s" % x) time.sleep(1)#停止一秒def writin...原创 2019-04-11 16:05:53 · 147 阅读 · 0 评论 -
python3爬虫学习之数据存储JSON
JSON,全称为JavaScript Object Notation,也就是JavaScript对象标记。它通过对象和数组的组合来表示数据,构造简洁但是结构化非常高,是一种轻量级的数据交换格式。另,推个网站:json.cn我们将了解到四个方法:dumps,dump,load,loads所有代码基于此import jsonuser = [ { 'name...原创 2019-04-07 21:49:47 · 545 阅读 · 1 评论 -
python3爬虫学习之lxml与xpath实战爬取豆瓣热映
做个爬取最近豆瓣热映电影的爬虫,巩固所学,用lxml解析和xpath提取规则from lxml import etreeimport requestsheaders = { "User-Agent" : "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) " "AppleWebKi...原创 2019-04-03 22:14:52 · 431 阅读 · 0 评论 -
python3爬虫学习之数据存储MySQL基础
数据入库也是爬虫的基本操作,这里我们首先了解一下MySQL数据库的基本操作首先请确保已经安装了MySQL数据库,在这里推荐一下Navicat,很好用,安装及破解很简单,百度一下你就知道。请确保已经安装了pymysql一:MySQL数据库连接我已经建了一个pymysql_demo的数据库,并创建了student表,因为之前有过操作,所以把表清空了。推荐大家用Navicat是因...原创 2019-04-10 14:55:00 · 351 阅读 · 0 评论 -
python3爬虫学习之beautifulsoup实战
记录一下beaautifulsoup的使用和信息提取规则,并运用在实战中,学习课程时做的案例爬取中国天气网所有城市的最低气温并排出10大气温最低城市,实战中会有大大小小的误区及需要注意的地方,下面会一一列举上代码import requestsfrom bs4 import BeautifulSoup# from pyecharts import Barcities_temp ...原创 2019-04-05 23:06:35 · 1853 阅读 · 0 评论 -
python3爬虫学习之数据提取之re
世界上的人分为两种,会正则表达式的,不会正则表达式的。作为提取信息极为强大,也最难以掌握的,正则表达式,我属于第二类人,努力向前一种看齐,记录一下re的基本方法与使用,下个博客上实战。以下所有代码基于此import re一:首先,了解匹配单个字符说在前面,我们应该注意到,当我们用re的match方法匹配单个字符时,它会从第一个字符开始匹配,如果匹配不成功就会报错,匹配成功才能...原创 2019-04-06 00:40:46 · 828 阅读 · 0 评论 -
python3爬虫学习之re实战
基于前面正则表达式的学习,上一篇学习中的实践代码,实战项目,爬取古诗文上代码import reimport requestsdef parse_page(url): headers = { "User-Agent" : "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)" ...原创 2019-04-06 00:57:14 · 352 阅读 · 0 评论 -
python3爬虫学习之数据存mongo基础
作为热门的非关系型数据库,掌握mongo也是基本技能之一,我们将了解mongo的连接与基本操作首先请确保已经安装了mongo数据库,安装时如果勾选了compass,可能会无法正常安装,compass可以另外安装,这里建议取消勾选。请确保安装了pymongo一:启动mongo:mongod dbpath + 路径需要注意,这个data是我自己在文件夹新建的,它用来存储数据...原创 2019-04-10 21:18:32 · 252 阅读 · 0 评论 -
python3爬虫学习之数据存储txt
上一篇实战爬取知乎热门话题的实战,并且保存为本地的txt文本先上代码,有很多细节和坑需要规避,弄了两个半小时import requestsimport reheaders = { "user-agent" : "Mozilla/5.0 (Windows NT 6.1; Win64; x64)" " AppleWebKit/537.36 ...原创 2019-04-06 23:54:26 · 913 阅读 · 0 评论 -
python3爬虫学习之urllib库
下面介绍爬虫的一个基本库,urllib从代码看起(本文所有代码依赖于第一篇代码中前三行导入的库和模块)一:下面的代码介绍最基本方法及其作用,注释在代码块中import urllibfrom urllib import requestfrom urllib import parseresponse = urllib.request.urlopen('http://www.p...原创 2019-04-01 21:57:48 · 203 阅读 · 1 评论 -
python3爬虫学习之urllib库实战爬取网站
目的:熟悉并使用urllib,了解实际爬取时需要注意的事项以爬取拉勾网为例进入拉勾网,搜索python,拿到上面的url上代码from urllib import request,parseurl = "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="...原创 2019-04-01 22:33:50 · 367 阅读 · 0 评论 -
成功模拟登陆GitHub以及关于登陆CSDN的问题
模拟登陆GitHub时只需要在登陆界面获取一个参数authenticity_token即可,其他参数都是固定的,如下图:这个参数在登陆界面的Elements,Ctrl+f 进入查找就可获取位置,然后用xpath获取即可代码如下:import requestsfrom lxml import etreeclass Logon(object): def __init...原创 2019-05-26 15:49:01 · 389 阅读 · 0 评论