![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java爬虫
文章平均质量分 62
反正CPU闲着也是闲着
这个作者很懒,什么都没留下…
展开
-
demo-musicGet(爬取音乐数据笔记)
本demo是为了提高对Java爬虫框架webmagic的使用熟悉度。 本文是为了记录一些关于本demo的重要的点。 启示:代码中一点不起眼的小瑕疵,在硬件条件一般&&程序的高速运转中,可能被无限放大,最后导致程序崩溃。 S1:分析作者分析了QQ音乐,百度音乐盒,网易云音乐,酷狗音乐,酷我音乐等音乐网站的api,发现酷我音乐爬取难度最低,所以准备爬取酷我音乐网。 QQ音乐 歌手列原创 2017-09-10 10:35:27 · 709 阅读 · 0 评论 -
【爬虫工具方法】根据属性得到一条HTML标签的一个属性值
工具方法:public static String getValueByKeyInHtml(String src, String key) { Pattern pattern = Pattern.compile("(?:" + key + "\\s*=\\s*)" + "['\"](.*?)['\"]"); Matcher matcher = pattern.matc原创 2017-12-10 11:26:28 · 1098 阅读 · 0 评论 -
尝试WebMagic+Dubbo搭建爬虫Cluster(更新完毕)
目录现在还没解决的问题已经解决的问题大致思路的演化2017年11月11日开发记录2017年11月16日开发记录2017年11月17日开发记录2017年11月18日开发记录2017年11月19日开发记录2017年11月20日开发记录2017年11月21日开发记录2017年11月22日开发记录2017年11月24日开发记录面试该项目时得到的一些改进的建议现在还没...原创 2017-11-11 16:05:03 · 1143 阅读 · 0 评论 -
redis+结巴分词做倒排索引
起源之前爬取过一百万的歌曲,包括歌手名,歌词等,最近了解到倒排索引,像es,solr这种太大,配置要求太高,对于一百万的数据量有些小题大做,所以想到了redis做一个倒排索引。我的配置这里说一下我的配置,后面用的到:cpu:i7 8750HQ (六核十二线程)内存:8G ddr4硬盘:ssd(.m2接口)思路简单来说就是把MySQL中的数据取出来,分词(包括去除停用词),将分词后...原创 2019-03-14 21:15:23 · 3066 阅读 · 0 评论 -
分布式爬虫(Zookeeper+Redis+Spring+WebMgic+Dubbo)
Dpider参考网上大佬的一张分布式爬虫的架构图,对其的一个实现。因为时间比较急,所以在某些地方跟原架构图不一样(有的省去了,有的用的其他技术),但总体架构是按照这个来的。文章很棒,推荐大家看一看!文章如下:分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储项目地址:GitHub/gasoliner/dpider架构图如下:...原创 2019-04-09 12:00:46 · 756 阅读 · 0 评论