爬虫
sparkexpert
大数据挖掘技术(人工智能)的爱好者
展开
-
JSoup/NSoup对CSS类名称中含空格的处理
在爬虫过程中,经常需要对网页内容进行信息提取。 而在这处理过程中,JSoup是经常常用的库。(Nsoup是Jsoup的.net开发版本) 从JSOUP的官网例子中,可以处理几乎任何节点数据。 但是在查找某个类别的CSS名称过程中,由于名称存在空格,导致其提取内容问题返回为空。 相信这个问题大家经常遇到,于是在此将过程记录一下。 如下面一个例子:原创 2016-03-19 16:30:13 · 2046 阅读 · 0 评论 -
中国期刊数据库元数据信息的多线程爬取
[注:本文所做实验只是用来进行学术研究,未进行任何商业操作。] 在研究复杂网络过程中,其中异质网络是一种很普遍的现象。为了获取全面的数据,想着爬取期刊信息数据库,因为里面蕴含了丰富的数据信息,包括论文与论文之间的关系,论文与作者的关系,作者与作者的关系,作者与机构的关系,论文与关键字的关系。 从这里面可以进行各种关系的挖掘和推理。 然而要想爬这个数据,其实上受限制很大原创 2016-03-23 11:01:17 · 1245 阅读 · 0 评论 -
中国企业黄页数据的多线程爬虫
企业黄页数据包含一些信息,虽然不怎么用到,但是在做爬取的时候,顺便刚好验证一下多线程爬虫的效果。 采用.net来撰写,主要是速度比较快。下载效果如下: 爬虫后企业信息按照所属地域进行组织,即每个城市一个文件。 当然,这个黄页信息非常简单,就只有企业名称,邮编,电话,地址等。,原创 2016-05-30 17:19:35 · 3909 阅读 · 3 评论 -
电话信用标记数据的爬虫
一直以来,相信很多人会接到许多诈骗电话的。因此也催生了一些电话标记软件。 最近在分析一些数据的过程中,需要寻找这些标记数据,才发现是没有办法下载到的。想想只能靠爬虫了。 偶然的机会,发现一些地方还是有接口。。 分析了百度,360,腾讯这些手机终端卫士软件的数据结果,发现360的效果是比较好的。可能是用户基数相对较多吧。而百度因为是做爬虫起家的,其数据中还能出现触宝或者原创 2016-06-02 11:30:46 · 2029 阅读 · 2 评论 -
C# webbrowser爬虫中经常碰到的脚本错误弹出窗口的问题解决
在爬虫过程中,经常会碰到脚本错误的提示窗口。 网上有关于这个错误的好多解决办法。 后来终于测试成功。其实现如下: //## 这边把脚本错误的压制设置为true. this.webBrowser1.ScriptErrorsSuppressed = true; this.webBrowser1.Docu原创 2016-07-05 23:04:11 · 3871 阅读 · 1 评论 -
健康问答语料的爬虫(C#)
为了实现健康问答系统的构建,需要找一些语料,发现好大夫在线的数据挺好的,于是花了一个小时时间,写了个爬虫,能够爬取其页面上显示的40个疾病左右的问答语料。 采用C#来编写,主要效率高一些。开辟了20个线程进行下载,约下载了30多万的问答语料。 爬取下来的结果如下所示:可以看到当中存在着几轮对话,当然也有一些噪声,如尽快填表等。 ###### 鼻炎原创 2017-09-12 16:53:59 · 2007 阅读 · 4 评论