- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 爬虫新任务
今天又收到一个奇怪的爬虫任务,爬取政府的xxx公共网站额,奇怪的需求,奇怪的要求碰到的三个问题是:1、ajax 请求。。其实发现根本不难啊,和原来的爬取过程一样啊。都已经把必要的请求全部取出了,按照必要的顺序和格式请求过去就可以了2、验证码请求这个确实是一个难点,因为如果验证码做的好,确实很难识别,而且还要自己写对应的训练库。但是这里的验证码比较简单用ubunt
2015-10-26 22:15:12 799
原创 ubuntu 操作补充 查找文件 和 awk
1.whereis 文件名 特点:快速,但是是模糊查找,例如 找 #whereis mysql 它会把mysql,mysql.ini,mysql.*所在的目录都找出来.我一般的查找都用这条命令. 2.find / -name 文件名 特点:准确,但速度慢,消耗资源大,例如我想找到php.ini的准确位置,就需要用 #find / -name php.ini 3.loc
2015-10-23 19:46:03 1176
转载 mongodb常用操作
查看全部数据表> useChatRoomswitched to dbChatRoom> showcollectionsAccountChatsystem.indexessystem.users 创建数据表>db.createCollection("Account"){"ok":1} >db.createCollection("Test",{cap
2015-10-23 18:44:24 400
转载 ubuntu github 使用
1. 安装Git1.1 Ubuntu12.04下可以使用apt-get方式安装,也可以下载源代码安装【1】,我们这里使用apt-git安装。但由于直接使用 sudo apt-get install git 安装的版本较老,因此我们参考【2】中给出的PPA源。sudo add-apt-repository ppa:git-core/ppasudo apt-get update
2015-10-19 09:07:44 383
转载 java socket 编程原理 转
转自 http://www.blogjava.net/Reg/archive/2010/07/17/326392.html Java网络socket编程详解7.2 面向套接字编程 我们已经通过了解Socket的接口,知其所以然,下面我们就将通过具体的案例,来熟悉Socket的具体工作方式7.2.1使用套接字实现基于TCP协议的服务器和客户机程序
2015-10-18 19:52:17 523
原创 面试,一点小心得
昨天去百度面试:人家问爬虫download下来的picture 全部放到一个文件夹,因为文件夹的文件数目是受限的,所以问下有没有其他办法存啊?我不知道文件夹下的文件数目是受限的啊?所以说还没考虑那么多。查看了一些资料,一般是不会发生文件数目超过的情况的。引文根目录受限范围是 32000 其他目录文件数目是不受限的。但是受到总文件数目的控制,inodes;
2015-10-11 21:47:23 508 1
原创 linux ubuntu 虚拟机系统文件补充章
今天碰到一个比较头疼的问题,师弟要用电脑,导师让我把我正在做实验的电脑分给他用。。。师弟倒是人不错,说没关系,让我继续再他的机器上跑分布式实验。。。可这让我怎么好意思还好我用的是虚拟机系统,然后我把整个虚拟机系统,包括克隆版本都全部拷到硬盘里,放到另外一台机器上了。。。什么?为什么不让师弟用另外一台机器?额,这台机器原来是大师兄的,现在大师兄走了,然后就顺带借着用一下。。。
2015-10-01 16:20:11 411
Microsoft SQL.Server 2012 Reporting Services.pdf
2014-07-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人