2016年07月_六神就是我

12月 09月 07月 06月

原创简书爬取专题文章（爱它就把它爬下来）

简书里的文章有分专题，如然后随便进入一个专题：然后问题来，这个专题里面总共有132篇文章，但是先看看它的源代码，里面的有一篇文章居然在源码里搜不到！这也就意味着这篇文章的链接就提取不到了！它的源码里只有到《别再信息偏食……》的内容好吧，那么要怎么才能把一个专题给爬取完全呢？先开启浏览器网络模式，随着鼠标下滑，发现页面进行了新的载入。

2016-07-15 17:28:14 1627

原创 mongoDB如何复制collection里的数据到另一个collection方法总结

mongoDB的可以直接复制数据库，但是对于数据库里的表却没有直接的复制语句。在项目中遇到数据放错collection了情况就很棘手，现在将方法总结如下：

2016-07-15 15:48:16 28827 2

发现简书上有些文章还挺不错，页面如下：然后就手痒写了几行代码，用xpath匹配的方法将首页推荐的文章的内容抓了下来，它有一个“显示更多的按钮”，每次click一下，就会再出现一些内容，这次我设置的是抓了4次更多。之后就是保存在本地了，代码不多，但是还算实用，只是没有将文章里的图片给配套爬取。代码如下：package qita;import java.io.IOException;import ja

2016-07-12 14:43:50 996

cx_Oracle轮子

windows 64位，python2.7版本，cx_Oracle安装的轮子，使用pip install <轮子名>即可安装

2019-01-16

webpy以及其依赖离线安装包

里面包含webpy-master，cheroot-6.5.2-py2.py3-none-any，more_itertools-4.3.0-py2-none-any 适用于python2.7版本安装

2018-09-08

selenium模拟登录新浪微博.

内含火狐驱动，和phantomjs无壳浏览器，针对现新浪微博的登录界面有用

2017-01-13

五子棋AI html

html版五子棋，算法在js里。人工智能的第一小步，可做练手demo

2017-01-12

使用selenium模拟登录新浪

含代码，火狐驱动，phantomjs

2017-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

<p>专注挖坑</p>

原创简书爬取专题文章（爱它就把它爬下来）

原创 mongoDB如何复制collection里的数据到另一个collection方法总结

原创简书首页推荐文章文字爬取，用txt保存

cx_Oracle轮子

webpy以及其依赖离线安装包

selenium模拟登录新浪微博.

五子棋AI html

使用selenium模拟登录新浪

空空如也

原创 简书爬取专题文章（爱它就把它爬下来）

原创 mongoDB如何复制collection里的数据到另一个collection方法总结

原创 简书首页推荐文章文字爬取，用txt保存

cx_Oracle轮子

webpy以及其依赖离线安装包

selenium模拟登录新浪微博.

五子棋AI html

使用selenium模拟登录新浪

空空如也

原创简书爬取专题文章（爱它就把它爬下来）

原创简书首页推荐文章文字爬取，用txt保存