- 博客(11)
- 收藏
- 关注
原创 手把手教你二进制部署kubernetes集群
手把手教你二进制部署kubernetes集群关闭防火墙关闭selinux关闭swap根据规划设置主机名在master添加hosts将桥接的IPv4流量传递到iptables的链时间同步生成 kubelet bootstrap kubeconfig 配置文件查看kubelet证书请求批准申请查看节点切换工作目录创建证书请求文件生成证书四层负载均衡,为两台Master apiserver组件提供负载均衡部署一套完整的Kubernetes高可用集群(上)目录[-]一、前置知识点1.1 生产环境可部署Kub
2021-06-27 07:38:17 544
原创 scrapy选择器提取含表格相关标签内容
在scrapy框架提取网页内容会用到xpath,css选择器来提取我们想要的内容,相关的语法规格官方文档有详细的介绍,但实际应用的时候难免会有一些特殊的捣乱分子的存在,比如有些内容掩藏在层层标签之内,只要一层层的揭开也是很容易的,在这里分享一种和表格标签相关的元素提取。爬取的网站是一个新西兰高等法院的案件数据,数据量相对很小,最终只有几千条而已,但因为第一次提取表格内的元素,所有走了一些弯路。...
2019-04-02 13:07:03 1693
原创 python爬虫学习笔记-scrapy框架之start_url
在使用命令行创建scrapy项目后,会发现在spider.py文件内会生成这样的代码:name = 'quotes'allowed_domains = ['quotes.toscrape.com']start_urls = ['http://quotes.toscrape.com/']其中比较好理解的是name,这个字段代表爬虫项目名称,在命令行创建时已经指定,allowed_domai...
2018-12-30 12:40:18 16256 2
原创 requests+正则表达式爬取豆瓣读书top250
简单的python联手项目,通过rquests库请求得到豆瓣top250网页源代码,并通过正则表达式匹配得到对应信息-书名,作者信息,评分以及简介。网站的URL为’https://book.douban.com/top250?start=0’,但我们拉到底部发现250本读书的信息被分成了10页,这就需要我们首先对URL的规律进行分析得到所有页面的URL信息传递给get()方法中请求源代码。点击...
2018-12-29 23:22:54 4118
转载 数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
转载自:https://www.cnblogs.com/KevinYang/archive/2009/02/01/1381788.html2006年5月15日 上午 07:15:00发表者: 吴军,Google 研究员[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自...
2018-12-23 11:13:49 219
原创 python爬虫学习笔记分析Ajax爬取果壳网文章
有时在使用requests抓取页面会遇到得到的结果与在浏览器 中看到的结果不一样,在浏览器检查元素中可以看到的正常的显示的网页数据,但是requests请求得到的结果却没有。这是因为requests请求得到的时原始的html文档,而浏览器中的界面确实经过JavaScript处理数据生成的结果,这些数据来源可能不同,有的时Ajax加载的,可能包含在html文档中,也有可能经过JavaScript渲染...
2018-12-21 13:34:44 697
原创 python爬虫学习笔记-使用BeautifulSoup解析html
之前抓取豆瓣图书Top250的时候,获取内容使用的方法是正则表达式匹配,看上去是一种比较简洁的方法,但问题在于,正则表达式的编写必须非常细心,一旦出了任何小问题,就会导致得不到想要的结果。熟悉html的话,不难想到可以利用节点之间的结构和层级关系来作区分并进一步获取节点内想要的文本。于是BeautifulSoup库为我们实现了这种更加直接的匹配方法,BeautifulSoup是一个python的...
2018-11-24 11:23:46 1038
原创 python爬虫学习笔记-requests用法
python内置的urllib在某些高级应用时存在很多不方便的地方且功能似乎也没有想象的那么强大,于是更为强大第三方库requests库应运而生,有了它,cookies,代理,登陆操作都是简化很多。首先确认安装requests库:pip install requests1.类比于urllib的urlopen()方法发送请求,requests对应的方法是get(),实例如下:r=reque...
2018-11-17 16:02:44 295
原创 python爬虫学习笔记-urllib的使用
学习爬虫,最基本的操作即为模拟浏览器向服务器发出请求,python内置了一个名为urllib的内置HTTP请求库,有了它,我们只需要关心请求的链接是什么,需要传递什么参数,以及设置请求头等其他信息即可。这样,我们就不用深入底层的连接具体是怎样传输和通信(当然,这是站在巨人的肩膀上)。urllib库包含4个模块:request:urllib的请求模块,模拟发送请求;error:异常处理模块,用于...
2018-11-17 11:47:15 351
原创 微信的秘密-python可视化微信好友信息
记得2016年第一次开通微信的时候,我以及周围的大多数人还是重度的QQ用户,当时只是跟风开通了一下,也没觉得会改变什么。没想到才两年过去,我已经忘记了QQ的存在,每天起来第一件事就是查看微信,睡觉前也必然要看一下朋友圈有什么好玩有意义的事情,不得不说腾讯的产品策略绝对是一流的。那么我们能用python对微信做些什么呢?还好微信官方有一个比较冷门的python库-itchat,这是微信提供的一个借...
2018-11-11 12:33:08 426
原创 python学习笔记之pygal可视化世界人口
数据可视化指的是通过可视化表示来探索数据,它与数据挖掘紧密相关,而数据挖掘指的是通过代码来探索数据集的规律及关联。漂亮地展示数据关乎的不仅仅是漂亮的图片。以引人入胜的简洁方式呈现数据,让观者明白其含义,发现数据中原本未意识到的规律与意义。在这一领域,有更多人抛弃excel,matlab甚至是R语言选择用python来进行这些工作,究其原因,像我这种初学者看重其简洁,资源丰富的包,数据科学家们应该...
2018-11-03 17:16:12 1082
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人