Debroon
喜欢研究思维策略、动力策略、AI应用、各种新变化,让自己越来越自由。
展开
-
Scrapy[爬虫专题(17)]
介绍 上一篇博客学习的是异步爬虫,打造了爬虫军队,代码要封装为函数形式。 这一篇博客是讲解 scrapy框架,多用于商业爬虫,代码要封装为多文件形式。 Scrapy是基于Twisted开发的,是一个异步的框架,性能是TA最大的优势,在这里我们并不需要手动实现异步的代码...... ...原创 2020-03-16 17:03:51 · 428 阅读 · 1 评论 -
疫情监控脚本:实时追踪全国各地疫情地图
疫情情况实时监控完整代码1.获取实时数据2.可视化疫情数据 完整代码整个项目分成俩部分:爬虫获取实时数据本地浏览器可视化疫情数据完整代码下载地址:https://download.csdn.net/download/qq_41739364/16683815 1.获取实时数据功能:爬取当前时间的疫情数据,俩份数据以 .csv 文件格式保存。from requests_html import HTMLSession import randomimport .原创 2021-04-16 19:47:19 · 1619 阅读 · 1 评论 -
我在校园:每日三检,打卡自动化
文章目录原创 2021-03-31 07:07:30 · 3494 阅读 · 2 评论 -
批量检查注释量是否达标 [Python脚本]
听吴军大佬说,在Google,写代码的规范是有严格规定的,那种规定近乎苛刻,不仅要求给变量起名字要有特定的格式,单元测试要覆盖 100% 的代码,程序的注释要占到篇幅的三分之一左右,就连多一个空格都不允许。任何不符合这样不近人情的规矩的代码,是不能提交的。因此,刚刚进入 Google 的新人,前一个月基本都是练习代码规范。本脚本检查的是 Python,Python 中单行注释以 # 开...原创 2019-10-13 09:28:29 · 462 阅读 · 0 评论 -
定时发邮件 [爬虫专题(6)]
smtplib 模块发邮件 QQ邮箱端口、加密 QQ邮件经历、改变 定时功能实现 我加入一些QQ群之后,QQ邮箱因为加入Q群就经常收到没境界的邮件,偶尔是打广告的。这个就很无奈,那我们不发广告。学编程发邮件干嘛 ??会发邮件原创 2020-03-10 13:16:34 · 710 阅读 · 1 评论 -
正则,把有奶的都处理了 [爬虫专题(13)]
正则表达式 哈哈哈,这标题取的太变态了。完全搞不懂写的人想要说什么? 其实,这很好解释。如果您对奶过敏。凡是带奶的,都过敏。为了告诉您,过敏是一种什么样的感觉,我会在找一篇知乎的文章。 链接:https://www.zhihu.com/question/19568396/answer/19416568作为女生...原创 2020-03-16 17:09:56 · 324 阅读 · 0 评论 -
储存数据与操作Excel [爬虫专题(9)]
《目录》 存储数据的方式 读取与写入 写入Excel文件 Excel文件的读取 练习新·Python 操作 excel 文件[爬虫专题不需要掌握的内容]读[xlrd] 提取文件 行数 ...原创 2020-03-16 17:09:13 · 631 阅读 · 3 评论 -
多协程多个爬虫 [爬虫专题(15)]
引言 商业爬虫,爬取的数据量极为惊人。 如果按照之前的爬虫博客的爬取方法,效率是一点都不高的。 目录多协程是什么 语法如何 小结 队列 今天上一波...原创 2020-03-16 17:08:59 · 247 阅读 · 1 评论 -
打造代理 IP 池[爬虫专题(18)]
商业爬虫时,因为爬取的数据量非常大,需要应对一些反爬。 我们的电脑都有一个固定的 IP 地址(本机IP地址),每次我们都是以这个 IP 去访问。 假如电脑的本机 IP 是 111. 111. 111. 111,端口是 10086。 看本机的IP 地址: [浏览器点击一个网页] [右击鼠标] [检查] [Network] [XHR] [Hea...原创 2020-03-16 17:04:24 · 311 阅读 · 0 评论 -
网络空间搜索引擎
上世纪八九十年代,纽约的犯罪问题非常严重,凶杀、强奸、枪击、抢劫、贩毒等案件,每一项都高居大城市前列,纽约当时也被称为“犯罪之都”。但是到了九十年代,纽约犯罪率却一路走低,甚至低于美国的平均犯罪率水平。这是因为1991年,人类发明了网络摄像头。网络摄像头这个技术,一开始是剑桥大学的科学家,他为了一边坐在实验室里工作,一边可以照顾隔避房间在煮的咖啡。这项发明,很快就被英国警察利用起来了,用来...原创 2019-11-29 14:24:11 · 1965 阅读 · 0 评论 -
图灵测试:打造一个聊天机器人[爬虫专题(12)]
接下来的俩篇文章,都是从整体到各个细节,而不是从各个细节到整体。因为我们已经来到了人工智能的领域,我们将用爬虫实现 图灵测试、自然语言处理,这些东西太好玩了,以至于我想先给成品。人和计算机的区别,仅仅在于“意识”,其实计算机完全可以假装自己有意识、假装自己是智能的。那该如何评估计算机是否智能呢 ?(这个问题在《人工智能的未来趋势》里单独讨论) 图灵测试大家应该知道计算机之父...原创 2019-11-29 14:20:22 · 511 阅读 · 1 评论 -
爬虫是什么
爬虫是什么网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。对我们来说,爬虫程序需要我们自己写,可以下载的我们眼里最有价值的数据。通常我们会把收集到的数据进行数据分析:如果我们想开 淘宝零售店\color{Salmon}{淘宝零售店}淘宝零售店,可对淘宝这个市场并不了解,我们就可以爬取淘宝用户的...原创 2019-10-29 23:06:19 · 833 阅读 · 0 评论 -
手机APP爬虫[爬虫专题(19)]
《目录》原理 下载工具 Charles 的配置 截取⼿机设备上的网络封包 截取 Https 通讯信息原理 手机app一般以json 传输,和网页一样。 只是网页...原创 2019-06-16 00:47:26 · 16810 阅读 · 13 评论 -
爬虫导论 [爬虫专题(11)]
《目录》如何下载整个互联网的网页 法老迷宫 图论起源:哥尼斯堡七桥 如何下载整个互联网的网页(上) 电脑为什么会死机 如何下载整个互联网的网页(中) 一笔画问题通解 组成CPU的开关网...原创 2019-03-03 08:25:09 · 602 阅读 · 2 评论