爬虫
文章平均质量分 66
柱子89
在读学生
展开
-
Python网络爬虫之模拟登录(以知乎为例)
参考:Web Crawler with Python - 08.模拟登录 (知乎)三个问题: 在实践时,发现该行报错:[python] view plain copy _xsrf = BeautifulSoup(session.get('https://www.zhihu.com/#signin').content).f转载 2016-10-18 15:54:01 · 792 阅读 · 0 评论 -
URL,URLConnection,HttPURLConnection的使用
URLConnection与HttPURLConnection都是抽象类,无法直接实例化对象。其对象主要通过URL的openconnection方法获得。值得注意的是:1.openConnection方法只创建URLConnection或者HttPURLConnection实例,但是并不进行真正的连接操作。并且,每次openConnection都将创建一个新的实例。2.open转载 2017-03-31 12:12:40 · 547 阅读 · 0 评论 -
基于Hadoop 的分布式网络爬虫技术学习笔记
基于Hadoop 的分布式网络爬虫技术学习笔记一、网络爬虫原理Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外,还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断转载 2017-03-31 18:26:10 · 2430 阅读 · 0 评论 -
Hadoop学习之网络爬虫+分词+倒排索引实现搜索引擎案例
本项目实现的是:自己写一个网络爬虫,对搜狐(或者csdn)爬取新闻(博客)标题,然后把这些新闻标题和它的链接地址上传到hdfs多个文件上,一个文件对应一个标题和链接地址,然后通过分词技术对每个文件中的标题进行分词,分词后建立倒排索引以此来实现搜索引擎的功能,建立倒排索引不熟悉的朋友可以看看我上篇博客 Hadoop–倒排索引过程详解首先 要自己写一个网络爬虫由于我开始写爬虫的时候转载 2017-04-01 18:09:54 · 535 阅读 · 0 评论