- 博客(3)
- 资源 (10)
- 收藏
- 关注
原创 Python3爬虫之六网页的初步分析【抓取豆瓣最新电影影评并用词云显示】
在做本章内容之前,先做两件事:1、安装结巴分词jieba;2、安装云词库wordcloud 一、安装结巴分词 1、上Git上下载Jieba源码:https://github.com/xingzhexiaozhu/jieba 2、进入对应的文件目录,执行 python setup.py install 安装完成 二、安装云词库 1、进入http://www.lfd.uci
2017-09-21 13:36:31 2614
原创 Python3爬虫之五网页下载器的几种方法【Python使用cookie模拟登录CSDN】
(1)直接请求 from urllib import request # 目标网址 url = "http://www.zhihu.com" # 直接请求 response = request.urlopen(url) # 获取请求的状态码,200表示成功 # 读取内容 if(response.getcode() == 200): print(response.read())(
2017-09-05 11:26:34 2301 1
原创 Python3爬虫之四简单爬虫架构【爬取百度百科python词条网页】
前面介绍了Python写简单的爬虫程序,这里参考慕课网Python开发简单爬虫总结一下爬虫的架构。让我们的爬虫程序模块划分更加明确,代码具有更佳的逻辑性、可读性。因此,我们可以将整个爬虫程序总结为以下5个模块: 1、爬虫调度端:负责启动、停止、监控爬虫程序的运行; 2、URL管理器:负责爬虫执行过程中待爬取的URL队列和已爬取的URL队列的管理【防重复、
2017-09-04 19:53:48 2403 1
中国计算机学会推荐国际刊物会议列表(数据库数据挖掘与内容检索)
2016-06-20
GroupLens_MovieLens数据集
2016-01-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人