- 博客(4)
- 收藏
- 关注
原创 Python获取网页编码的两种方法——requests、chardet
方法一:使用requests模块In[2]: import requestsIn[3]: res = requests.get('http://baidu.com')In[4]: resOut[4]: <Response [200]>In[5]: res.encodingOut[5]: 'ISO-8859-1'方法二:使用chardet模块import chardetfrom urlli
2017-12-12 16:57:22 9558
原创 Python爬虫(四):新增纵横中文网爬虫Demo--爬取136书屋小说,并保存至本地文本文件中,单进程多进程对比效率(以三生三世十里桃花为例)
运行环境:Python3.6、Pycharm2017.3、Windows10 RS3、requests2.18.4、BeautifulSoup4.6.0简介小说网址:http://www.136book.com/通过修改136book小说网中具体小说的url来爬取不同小说的分章节批量下载该代码以三生三世十里桃花为例(链接)–>http://www.136book.com/sanshengs
2017-12-12 00:03:08 2898 5
转载 常用正则表达式汇总—(数字匹配/字符匹配/特殊匹配)
来源于知乎专栏:https://zhuanlan.zhihu.com/p/29619457 这个是我在知乎上看到前辈的专题,里面的专栏帮助了我很多,推荐大家去看看。 - 文章底部有很熟悉的一张正则表附图1. 校验数字的表达式 2.校验字符表达式 3.特殊需求表达式
2017-12-03 23:17:19 79832 3
原创 (已更新)获取CSDN访问量、排名等信息存入JSON文件并绘图进行分析
运行环境: Python3.6、Pycharm2017.2、Windows10 RS4前言我的CSDN博客是今年八月份才开始写的,写博客的主要目的是对近期学习的知识点进行总结。在写博客的过程中也开始关注博客访问量、排名等等信息。 因为正在练习爬虫技巧,所以我写了一个爬虫程序来获取我的CSDN博客访问量、排名、原创文章数、评论数这四个信息。初级目标是将其存入json或csv文件中最终目标是通过
2017-12-01 11:45:21 842
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人