爬虫
爬虫和数据
return_min
这个作者很懒,什么都没留下…
展开
-
爬虫的定义以及可解决的问题 基础(初学爬虫)
第一讲 爬虫和数据1,爬虫的定义:程序或者脚本–》自动的爬取万维网数据的程序或者脚本2,爬虫可以解决的问题:重点前三个(1)解决冷启动问题。 思考?冷启动是什么?(2)搜索引擎的根基。 --通用爬虫。 思考?通用爬虫和聚焦爬虫的区别是什么?(3)帮助机器学习建立知识图谱。思考 ?知识图谱是什么?(4)制作各种比价软件。 思考?爬取各种比价数据整理成软件?未完待续...原创 2019-12-17 14:29:32 · 971 阅读 · 0 评论 -
在睡前小故事基础上增加定时功能,免除了自己点击,解放双手
文档:案例扩展:1.定时发送睡前故事.note链接:http://note.youdao.com/noteshare?id=275012bbcb8e43e7746b504e7d757b1e&sub=BCA1B72C89CD4E3AAAC23544B8A78A64原创 2020-01-02 21:08:03 · 164 阅读 · 0 评论 -
fidder的配置
1、安装正常点击下一步就可以2、配置:3、Fiddler的原理4、Fiddler的证书安装原创 2020-01-02 20:07:50 · 333 阅读 · 0 评论 -
qq音乐(网页版)
import requestsfrom multiprocessing import Poolclass Music_QQ(object): def __init__(self): self.get_mid_url = 'https://c.y.qq.com/qzone/fcg-bin/fcg_ucc_getcdinfo_byids_cp.fcg?' ...原创 2020-01-02 19:51:48 · 7686 阅读 · 0 评论 -
房天下租房
import requestsfrom selenium import webdriverfrom lxml import etreeclass Fantaixia(object): def __init__(self,url): self.url = url self.parse() def get_xpath_by_request(sel...原创 2020-01-02 19:46:41 · 220 阅读 · 0 评论 -
睡前小故事(儿童网)
先登录你要发送的qq邮箱,进入设置开启POP3/SMTP服务,获取授权码代码import randomimport requestsfrom lxml import etreeimport smtplibfrom email.mime.text import MIMETextclass Story_Spider(object): def __init__(self,url...原创 2020-01-02 19:26:53 · 375 阅读 · 0 评论 -
tesseract 图片验证码初级
另存为图片,后缀名.png下载tesseract配置环境变量 上方新建第一空 TESSDATA_PREFIX 第二空找到tesseract.exe 右键属性,安全–对象属性ctrl+左键 pytesseract 进入修改路径 C:\Tesseract-OCR\tesseract.exe 改成双斜杠代码:import pytesseractfrom PIL import Image...原创 2020-01-02 16:32:43 · 201 阅读 · 1 评论 -
笔记合集 爬虫基础系列 临近结束 课件直接合一起 方便自己寻找 有空再整理
day01一、爬虫的定义:程序或者脚本---》自动的爬取万维网的数据的程序或者脚本。二、爬虫可以解决的问题: (1)解决冷启动问题。 (2)搜索引擎的根基。---通用爬虫。 (3)帮助机器学习建立知识图谱。 (4)制作各种比价软件。三、爬虫工程师的进阶之路: 初级爬虫工程师 1.web 前端的知识: HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、j...原创 2019-12-31 21:17:24 · 1166 阅读 · 0 评论 -
增量爬虫 笔记12
一、增量爬虫 1、定义:通过更改爬取策略,使得爬取到数据库的数据增量式增长的一种爬虫程序。 2、策略: (1)在发送请求之前判断这个URL是不是之前爬取过; 用redis去重 (2)在解析内容后判断这部分内容是不是之前爬取过 用redis去重 def response_seen(response.text) (3)写入存储介质时判断内容是不是已经在介质中存...原创 2019-12-31 20:03:53 · 153 阅读 · 0 评论 -
笔记11 代理池
笔记12 1,代理池 2,scrapy 文件下载,图片下载 3,ajax--qq 进程--线程--协程: 例子:1、1洗衣房--有10台洗衣机--有一个洗衣工 进程 协程 一个线程 进程>线程>协程 async关键字----开启异步方法 def b(): 1 2---等待--整个线程都是等待 3 b()--...原创 2019-12-30 11:26:33 · 139 阅读 · 0 评论 -
笔记8 mongo基础命令
一、基础命令use test–选库显示 switched to db testdb.createCollection(‘goods’)显示(‘ok’:1)show dbs显示当前所有的库use shopswitched to db shopdb.goods.insert({name:‘zhangsan’,age:9})显示writeResult({‘nInserted’:1}...原创 2019-12-29 17:40:25 · 907 阅读 · 0 评论 -
scrapy的开发流程 笔记10
1,创建项目 scrapy startproject 项目名2,创建spiders爬虫文件 Scrapy genspider sipider名字 网址(占位)3,打开spider文件-->将待爬取的url放到start_urls中start_urls--起始url,scrapy启动之后,就开始下载start_urls里面的url。scrapy将start_urls里面的url下载好后...原创 2019-12-29 14:21:11 · 168 阅读 · 0 评论 -
第九讲 复习总结mongodb命令 笔记9
1,客户端启动和服务端开启命令:mongod 服务端–dbpath–port–logpathmongo 客户端–port–host2,基础命令show dbsshow collectionsshow tables如何创建库?1,use 数据库名2,添加一条数据db.collectionName.insert(文档)db.createCollection(name)...原创 2019-12-26 10:51:15 · 158 阅读 · 0 评论 -
第八讲 mongodb
文档:Mongodb数据库.note链接:http://note.youdao.com/noteshare?id=46dcb0788d9f005392c8b0e4c9e31e4d&sub=09EC956E45294DDC8443C95F9943D6C9文档:Hash算法.note链接:http://note.youdao.com/noteshare?id=bd0a383007132a...转载 2019-12-25 17:20:54 · 186 阅读 · 0 评论 -
作业7 爬取新笔趣阁分别使用单线程和多线程并保存文件
1,笔趣阁小说下载url:http://www.xbiquge.la/xuanhuanxiaoshuo/思路:进入首页,获取小说列表,进入小说,获取章节列表,在章节页面下载内容 字段: 小说名称 章节名称 章节内容 保存: 1.一本小说一个txt文件 2.每本小说都是全的。 进阶: 1.用多线程---保证章节目录是有序的。...原创 2019-12-24 22:24:10 · 321 阅读 · 0 评论 -
第七讲 monggo的基础配置
一、mongo的配置1、新建文件夹:C:\MongoDB\Server\3.4\data\dbC:\MongoDB\Server\3.4\data\logs2、配置环境变量:C:\MongoDB\Server\3.4\bin配置到path系统环境变量中。3、测试是否配置成功mongod --dbpath C:\MongoDB\Server\3.4\data\db4、配置服务:mo...原创 2019-12-24 21:16:08 · 231 阅读 · 0 评论 -
day7上午
#队列基础from queue import Queueq = Queue()#队列#FIFOfor i in range(100): q.put(i)#入队while True: if q.empty(): break print(q.get())#出队#版本1.0import timefrom selenium import we...原创 2019-12-24 11:30:41 · 84 阅读 · 0 评论 -
豆瓣读书笔记
豆瓣读书笔记导包requests,seleniumdef main():1路由2请求头3for循环分页4返回响应5测试打印响应.text6创建一个dirverdriver=webdriver.PhantomJS()7请求头8等待time.sleep(2) 速度太快需要休眠9获取页面源代码 html_str=driver.page_sounce10返回页面return...原创 2019-12-23 22:31:29 · 368 阅读 · 0 评论 -
第六讲 多线程爬虫
第六讲 多线程爬虫关注:程序运行速度-->CPU(大脑)--提高程序运行速度-->提高cpu利用率。提高cpu利用率-->1,让cpu不休息-->cpu每时每刻都在处理任务--线程--》2,cpu都是分核-->每个核都是一个小cpu-->一心多用-->让每个核都作用起来,做不同事情-->多进程 一、程序、线程、进程?程序–>一应用...原创 2019-12-23 17:20:54 · 299 阅读 · 0 评论 -
第一周笔记系列
一、爬虫的定义:程序或者脚本—》自动的爬取万维网的数据的程序或者脚本。二、爬虫可以解决的问题:(1)解决冷启动问题。(2)搜索引擎的根基。—通用爬虫。(3)帮助机器学习建立知识图谱。(4)制作各种比价软件。三、爬虫工程师的进阶之路:初级爬虫工程师1.web 前端的知识: HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等;2、正...原创 2019-12-23 11:38:24 · 249 阅读 · 0 评论 -
上午笔记 selement的三种等待
一、selenium的三种等待:1、强制等待:不管页面是否加载出来,强制让进程等待。 time.sleep(2)2、隐式等待:driver.implicitly_wait(20)设置20秒的最大等待时长,他等待的结束条件是:等待到浏览器全部加载完成完成为止,全部加载可以理解为,浏览器不在装圈圈。 **弊端**:页面的加载其实不单单是页面html,重要还有一些页面静态资源,而静...原创 2019-12-23 11:35:30 · 583 阅读 · 0 评论 -
第五讲 反爬策略 笔记5
1、path环境变量的作用:为了让cmd找到各种命令exe工具,配path就找exe所在目录配置就可以了。C:\Anaconda3\Scripts—找pip.exe C:\Anaconda3----python.exe2.修改完path,要重启cmdwhere python path pip install redis pip install aiohttppip insta...原创 2019-12-21 17:38:43 · 718 阅读 · 0 评论 -
晨测3 理论语法
1、什么是cookie,什么是session?cookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。本来的含义是指有始有终的一系列动作,而在web中,session对象用来服务器存储特定用户会话所需要的属性及信息。2、cookie和session的原理是什么?他们是如何联系在一起的?cookie的原理:由服务器产生,当浏览器第一次发送请求到服务器,服务器返回数...原创 2019-12-20 17:54:36 · 123 阅读 · 0 评论 -
爬取单词并写入表格 笔记4
用xpath爬取单词 并写入表格链接 https://www.shanbay.com/wordlist/110521/232414/import requestsfrom lxml import etreeimport xlwtdef write_to_excel(infos): # 创建workbook workbook=xlwt.Workbook(encoding='ut...原创 2019-12-20 17:03:48 · 242 阅读 · 0 评论 -
xpath用法 案例笔记4
案例 1from lxml import etree1将字符串编译成element对象etree.HTML方法,是将内容解析成html文档tree = etree.HTML(text)print(tree) #<Element html at2将element对象变成字符串的方法html_str = etree.tostring(tree,pretty_print=True)....原创 2019-12-20 16:00:11 · 604 阅读 · 0 评论 -
第四讲xpath
1,什么是xml??定义:可扩展标记性语言特点:xml自描述结构–>半结构化数据作用:设计宗旨传输数据–>可作为配置文件二、xml和html的区别:1,语法要求不同---->xml严格html–>不区分大小写–>有时省却尾标签–>不带属性值–>属性可不加引号xml–>区分大小写–>不能省却标签—>有自闭标签(无内容,只...原创 2019-12-20 15:57:22 · 370 阅读 · 0 评论 -
作业3
作业3:利用正则表达式1,非负整数[99,100,-100,-1,90]2,匹配正整数3,非正整数4,qq邮箱:qq号5位—14号5,匹配出11位电话号码1 3-96,匹配日期2019-12-197,长度为8-10的用户密码:开头字母:必须大写,每一位可以是数字,字母下划线猫眼其他字段做出来。股吧:1,字段阅读评论标题作者更新时间详情页2.10页内容保...原创 2019-12-19 17:21:03 · 227 阅读 · 0 评论 -
第三讲 正则表达式 基础 理论
第三讲 正则表达式一、数据的分类1,结构化数据特点:数据以行为为单位,每一个数据表示一个实体,每一行数据的属性都是一样的。举例:关系型数据库中的表就是结构化数据。处理方法:sql2,半结构化数据特点:结构化数据的另一种型式。它并不符合关系型数据的特点,不能用关系型模型来描述,但是这种数据包含相关标记有用来分割语义元素以及字段进行分层的描述,因此也被称为自描述结构。举例:xml、ht...原创 2019-12-19 11:21:11 · 324 阅读 · 0 评论 -
第二讲扩展
day3 第二讲一、cookie和session1,什么是cookie?cookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。2、什么是session?本来的含义是指有始有终的一系列动作,而在web中,session对象用来服务器存储特定用户会话所需要的属性及信息。3、cookie和session产生的原因:cookie和session他们不属于http协议范围...原创 2019-12-19 10:46:16 · 153 阅读 · 0 评论 -
项目:有道翻译笔记
有道翻译有变化参数三个:salt、ts、sign用到了五个模块requests,json,random,time,hashlibjs中源代码:salt = “” + (new Date).getTime()+parseInt(10 * Math.random(), 10)转换成python:salt=str(time.time()*1000+random.randint(1,10))源代...原创 2019-12-18 23:10:31 · 247 阅读 · 0 评论 -
第二讲 requests模块
第二讲 requests模块1,使用步骤:1,导包import requests2,确定基础urlbase_url = ‘https://www.baidu.com’3,发送请求,获取响应response = requests.get(base_url)4,处理响应内容with open(‘baidu.html’,‘w’,encoding=‘utf-8’)as bdbd.wri...原创 2019-12-18 23:09:33 · 203 阅读 · 0 评论 -
作业2
作业day2:1.股吧信息爬取:url:http://guba.eastmoney.com/要求:1、爬取10页内容,保存到guba文件夹下第一种方法import requests,osbase_url='http://guba.eastmoney.com/'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64...原创 2019-12-18 23:06:58 · 169 阅读 · 0 评论 -
正则基础
爬虫一共四个步骤:一是明确目标(要知道你准备在那个范围或者网站去搜索)二是爬(将所有的网站内容全部爬下来)三是取(去掉对我们没用的数据)四是处理数据(按照我们想要的方式存储和使用)正则表达式:对应文本的过滤或者规则的匹配正则表达式又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本对字符串操作的一种逻辑公式,用定义好的特定字符及特定字符组合的“规则字符串”,表达对字...原创 2019-12-17 19:36:33 · 139 阅读 · 0 评论 -
学爬虫的第一个问题
requests遇到的错误1,443错误 requests05```pythonport=443): Max retries exceeded with url: /sug (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x0000000003ABF518...原创 2019-12-17 19:26:24 · 203 阅读 · 0 评论 -
第一讲作业
1,整理笔记2,用递归的方法实现斐波那契数列。1,1,2,3,5,8,13……用递归的方法获取一个list的最大值和最小值,return(最大值,最小值)未完待续……...原创 2019-12-17 17:48:00 · 155 阅读 · 0 评论 -
爬虫工程师的进阶之路:
初级爬虫工程师 1.web 前端的知识: HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等; 2、正则表达式, 能提取正常一般网页中想要的信息,比如某些特殊的文字, 链接信息, 知道什么是懒惰, 什么是贪婪型的正则; 3、会使用 XPath 等获取一些DOM 结构中的节点信息; 4、知道什么是深度优先, 广度优先的抓取算法, 及...原创 2019-12-17 16:19:38 · 2701 阅读 · 0 评论