网络爬虫
文章平均质量分 92
Star先生
技术为本,行业为先!
展开
-
Scrapy安装及使用
本文介绍了常见的网络爬虫工具Scrapy的安装及使用过程,另外介绍了Scrapy运行时常见问题以及相应解决办法,希望能对您的学习带来帮助。原创 2015-07-22 20:35:10 · 4589 阅读 · 1 评论 -
Java网络爬虫
实际的爬虫是从一系列的种子链接开始。种子链接是起始节点,种子页面的超链接指向的页面是子节点(中间节点),对于非html文档,如excel等,不能从中提取超链接,看做图的终端节点 网络爬虫的基本知识网络爬虫通过遍历互联网络,把网络中的相关网页全部抓取过来,这体现了爬的概念。爬虫如何遍历网络呢,互联网可以看做是一张大图,每个页面看做其中的一个节点,页面的连接看做是有向边。图的遍历方式分为宽度遍历和深度原创 2015-08-06 17:18:23 · 1302 阅读 · 0 评论 -
一个用Python编写的股票数据(沪深)爬虫和选股策略测试框架
一个股票数据(沪深)爬虫和选股策略测试框架,数据基于雅虎YQL和新浪财经。根据选定的日期范围抓取所有沪深两市股票的行情数据。根据指定的选股策略和指定的日期进行选股测试。计算选股测试实际结果(包括与沪深300指数比较)。保存数据到JSON文件、CSV文件。支持使用表达式定义选股策略。支持多线程处理。代码main.pyfrom stockholm import Stockholmimpo原创 2015-12-26 23:18:16 · 54315 阅读 · 35 评论 -
用Python统计新浪微博各种表情使用频率
用新浪微博API积累了微博广场的1.4万条数据,我选择了21个字段输出为TXT文件,想用Python稍微处理一下,统计一下这1.4万条微博里面表情使用情况,统计结构在最后。原创 2016-10-09 11:43:53 · 3488 阅读 · 1 评论 -
Fiddler+JSoup爬取现代汉语语料库数据
爬虫中常用JSoup处理Html,对于类似百度这样的搜索引擎,则需要配合fiddler使用原创 2017-03-15 15:30:22 · 2664 阅读 · 0 评论 -
基于OAtuth2的新浪微博Java爬虫
OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是OAUTH的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此OAUTH是安全的。oAuth是Open Authorization的简写。 其实多数尝试动手写新浪微博爬虫的童鞋都知道,新浪微博虽然为用户提供了API调用的接口。原创 2015-09-07 10:54:41 · 10931 阅读 · 2 评论