- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 python 爬虫3 新浪微博 爬虫 实战
这次的项目 和文件都放到了 github 上 https://github.com/poiu1235/weibo-catch: 有兴趣的可以follow一下,或者点个赞咯 我这里采用的深度挖掘的方式:没有设定爬取的边界(这个以后是要考虑的) 大致的思路是,用自己的 账号登陆后,获取自己的微博列表和朋友列表。 然后根据朋友列表然后在爬取对方的微博列表和朋友列表。
2015-08-30 17:03:14 3650
原创 python爬虫补充章,在总控节点那台机器上安装mongodb和redis数据库 都是非apt方法
因为发现爬虫爬取出来的数据如果按照表结构划分后存储,不仅麻烦而且非常大的冗余 干脆试试用这样的非关系数据库来试试存储效果如何。 这里我不打算用redis 进行比较,因为他是内存数据库,他擅长的领域应该是缓存和少量数据的统计归类 (做这个的还有另外一大家伙memcache),redis 以后相配合 其他应用提高效率的。 这里相比较的主要是mongodb和mysql 的性能差,就特定指的是这样
2015-08-04 21:45:20 808
原创 python 爬虫2 介绍一下怎么抓取cookies,python多线程
读取cookies 可以这样: filename='FileCookieJar.txt' ckjar = cookielib.MozillaCookieJar() #这里读取cookie ckjar.load(filename, ignore_discard=True, ignore_expires=True) for it
2015-08-03 20:38:37 1156
转载 ubuntu apt-软件安装方式具体用法
apt-get 如何在ubuntu下面直接查找想要安装的软件? 比如我想安装tomcat,但是我又不知道ubuntu里面有哪些版本,也不知道都需要装什么,但是我能确认我装的是tomcat,那么我就可以用搜索命令:例如:apt-cache search tomcat,这样我就会得到以下的结果: libtomcat5-java - Java Servlet engine -- cor
2015-08-03 19:40:55 1039
原创 mysql 的job 设置
创建event Create event *** On schedule Every 5 minute Starts now() Do Begin Call proc(); End 或者不想用存储过程的,可以直接写 create event e_1 on schedule every 1 second do insert into test3.test
2015-08-02 11:37:37 539
转载 mysql 的分库分表操作
转自:http://wentao365.iteye.com/blog/1740874 刘文涛 前辈 和转自 http://my.oschina.net/ydsakyclguozi/blog/199498 博客 这里讲的是理论。路由机制和同步机制一般写在业务逻辑代码里和使用一些成熟的mysql 框架和插件(amoeba,Cobar) 解决。 单库单表 单库单表是最常见
2015-08-02 10:54:56 2725 1
Microsoft SQL.Server 2012 Reporting Services.pdf
2014-07-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人