爬虫
文章平均质量分 52
yebulk
这个作者很懒,什么都没留下…
展开
-
爬虫实战——使用普通方法爬取拉勾网(1)
import requestsimport timefrom lxml import etreeimport reheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36...原创 2020-04-19 20:48:20 · 750 阅读 · 0 评论 -
爬虫实战——使用selenium爬取拉勾网(2)
import requestsimport timefrom lxml import etreeimport refrom selenium import webdriverimport timeclass LagouSpider(object): driver_path = r"D:\Python_pycharm\PyCharm Community Edition 201...原创 2020-04-19 20:47:20 · 266 阅读 · 0 评论 -
爬虫(13)——动态网页数据抓取(Selenium Chromedriver)
目录动态网页数据抓取AJAX:安装Selenium和 Chromedriver验证安装是否成功动态网页数据抓取AJAX:异步javascript和XML。在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不加载网页的情况下,对网页进行更新。传统的网页要更新的话必须重载整个网页页面。例如:https://www.xfz.cn/点...原创 2020-04-14 23:54:25 · 748 阅读 · 0 评论 -
爬虫实战——爬取百思不得姐的段子
from queue import Queueimport requestsimport threadingfrom lxml import etreeimport csvclass Productor(threading.Thread): Base_url="http://www.budejie.com" headers={"User-Agent":"Mozilla/...原创 2020-04-14 22:45:45 · 228 阅读 · 0 评论 -
爬虫实战——下载表情包之同/异步爬虫
1.同步爬虫import reimport requestsfrom lxml import etreefrom urllib import requestimport osdef parse_url(url): headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/...原创 2020-04-13 23:05:54 · 242 阅读 · 1 评论 -
爬虫(12)——多线程爬虫(消费者生产者模式、condition模式)
多线程爬虫多线程是为了同步完成多项任务,不是为了提高运行效率,而是为了提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。 最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车也不可能只有一节车厢。多线程的出现就是为了提高效率。同时它的出现也带来了一些问题。”import threadingimport timede...原创 2020-04-13 19:49:28 · 452 阅读 · 0 评论 -
爬虫(11)——csv的读入写入
写入csv文件#以元组的形式写入def write_csv1(): header=["username","age","height"] values=[("张三","18","180"), ("李四","19","190"), ("孙五","20","160")] with open("abc.csv",'w',en...原创 2020-04-11 23:04:52 · 733 阅读 · 0 评论 -
爬虫实战——正则表达式爬取糗事百科
import reimport requestsdef parse_url(url): headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"} re...原创 2020-04-10 21:10:44 · 273 阅读 · 0 评论 -
爬虫实战——利用正则表达式爬取古诗文网
import reimport requestsdef parse_url(url): headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"} re...原创 2020-04-10 20:41:18 · 399 阅读 · 0 评论 -
爬虫(10)——re模块常用函数
1.re.findall()text="A is $85,B is $9"ret=re.findall('\$\d+',text)print(ret)#返回列表2.re.sub()text="A is $85,B is $9"ret=re.sub('\$\d+',"0",text,1)print(ret)#返回列表参数是正则表达式,替换成的字符串,需要替换的...原创 2020-04-08 21:48:11 · 162 阅读 · 0 评论 -
爬虫——正则表达式的小练习
1.匹配手机号1+(34578)中的一个+9位数字text="13555310477"ret=re.match('1[34578]\d{9}',text)print(ret.group())2.匹配邮箱号数字,字母或者下划线+@+至少一位的数字或字母+.+至少以为的字母text="1367393@qq.com"ret=re.match('\w+@[0-9a-z]+\....原创 2020-04-08 19:51:34 · 194 阅读 · 0 评论 -
爬虫(7)——正则表达式
目录正则表达式什么是正则表达式正则表达式语法(单个字符)1.匹配某个字符串2.点,匹配任意字符,但不能匹配换行符'\n'3.\d,匹配0-9数字4.\D,匹配非数字5.\s,匹配空白字符(\n,\t,\r,空格)6.\w,匹配a-z,A-Z,数字,下划线7.\W,与\w匹配的相反8..[],组合的方式,可以匹配到中括号中的任意字符电话号码的匹配...原创 2020-04-07 22:29:26 · 230 阅读 · 0 评论 -
爬虫实战(1)——爬取中国天气网并进行简单可视化
import requestsfrom bs4 import BeautifulSoupfrom pyecharts.charts import Barfrom pyecharts import options as optsALL_data=[]def parse_url(url): headers={"User-Agent":"Mozilla/5.0 (Windows...原创 2020-04-07 21:15:10 · 991 阅读 · 0 评论 -
爬虫6——BeautifulSoup(2)
目录BeautifulSoup常用的对象1.Tag BeautifulSoup2.NavigableString Comment遍历生成树BeautifulSoup常用的对象1.Tag BeautifulSoupTag就是HTML的一个个标签。BeautifulSoup是继承于Tag类,而其中的find(),find_all()等方法也是Tag类中...原创 2020-04-06 20:42:41 · 189 阅读 · 0 评论 -
爬虫(5)——BeautifulSoup(1)
1.BeautifulSoup41.与lxml一样也是HTML/XML的解析器2.B会载入整个文档,解析整个DOM树,lxml是局部,所以B的时间内存开销大。3.操作简单。几大解析工具对比from bs4 import BeautifulSouphtml=""bs=BeautifulSoup(html,"lxml")#“lxml”为解析器,还有三种解析器如下pr...原创 2020-04-06 19:51:35 · 544 阅读 · 0 评论 -
爬虫(4)——requests库
request的请求发送什么类型的请求,就直接发送response=requests.get("http://www.baidu.com")textrequest的各种属性import requestsresponse=requests.get("http://www.baidu.com")print(type(response.text))##是‘str’类型pr...原创 2020-03-30 18:12:30 · 139 阅读 · 0 评论 -
爬虫(2)——urllib库里面的常用的函数
目录urllib库urlopen函数urlretrieve函数urlencode函数parse.qs函数的用法 urlparse和urlsplit函数urllib库urlopen函数urllib库中的所有请求都被集中在,urllib.request模块from urllib import requestresp=request.ur...原创 2020-03-28 02:44:36 · 245 阅读 · 0 评论 -
爬虫(1)——爬虫前奏
仅供自己学习目录一.什么是爬虫二HTTP协议的介绍三.抓包工具使用的网络请求一.什么是爬虫通俗理解:一个模拟人类请求网站行为的程序。 可以请求网页,并把数据抓取下来,然后用一定规则进行分析。通用爬虫:类似于百度搜索,将互联网上的网页 下载到本地,形成一个互联网内容的镜像备份。聚焦爬虫(需求):会对内容进行筛选,是面向特定去求的一种网络爬虫程序。...原创 2020-03-26 00:23:22 · 234 阅读 · 0 评论