- 博客(3)
- 资源 (6)
- 收藏
- 关注
原创 简书爬取专题文章(爱它就把它爬下来)
简书里的文章有分专题,如 然后随便进入一个专题: 然后问题来,这个专题里面总共有132篇文章,但是先看看它的源代码,里面的有一篇文章居然在源码里搜不到!这也就意味着这篇文章的链接就提取不到了!它的源码里只有到《别再信息偏食……》的内容 好吧,那么要怎么才能把一个专题给爬取完全呢?先开启浏览器网络模式,随着鼠标下滑,发现页面进行了新的载入。
2016-07-15 17:28:14 1627
原创 mongoDB如何复制collection里的数据到另一个collection方法总结
mongoDB的可以直接复制数据库,但是对于数据库里的表却没有直接的复制语句。在项目中遇到数据放错collection了情况就很棘手,现在将方法总结如下:
2016-07-15 15:48:16 28827 2
原创 简书首页推荐文章文字爬取,用txt保存
发现简书上有些文章还挺不错,页面如下:然后就手痒写了几行代码,用xpath匹配的方法将首页推荐的文章的内容抓了下来,它有一个“显示更多的按钮”,每次click一下,就会再出现一些内容,这次我设置的是抓了4次更多。之后就是保存在本地了,代码不多,但是还算实用,只是没有将文章里的图片给配套爬取。代码如下:package qita;import java.io.IOException;import ja
2016-07-12 14:43:50 996
webpy以及其依赖离线安装包
2018-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人