- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 我要爬爬虫(4)-初识requests模块
与urllib模块不同,requests模块发送请求可以用明确定义的函数实现,如: requests.get() requests.post() 不需要urlopen()和handler(),更加方便发送请求。import requests,jsondata={ 'name':'Tom', 'age':1}re=requests.get('http://httpbi...
2018-05-31 22:58:38 696
原创 我要爬爬虫(3)-解析链接,Robots协议
解析链接我们经常需要对url进行合并,提取,转换等操作,urllib下的parse模块了解一下~解析链接urlparse() 把url解析为一个6元素的列表,包括scheme,netloc,path,params,query,fragment. urlunparse() urlparse的逆操作,把列表转化成url. urlsplit() 和urlparse()函数类似,...
2018-05-19 01:51:44 537
原创 我要爬爬虫(2)-实例化处理器,代理及cookie
实例化处理器 当我们请求一个带有弹出窗口验证的网页,例如http://httpbin.org/basic-auth/user/passwd HTTPPasswordMgrWithDefaultRealm函数可以加入用户名和密码信息。 使用HTTPBasicAuthHandler函数实例化处理器。 使用build_opener函数可以实例化一个opener,是上节学习的urlopen...
2018-05-15 06:05:02 442 1
原创 我爬爬爬虫(1)-初识urllib模块
urllib库的使用request.urlopen()函数urlopen(url)可以发送请求,也可以加上data,timeout等参数。response=request.urlopen(url)timeout参数设置timeout参数,如果响应时间超过timeout,则抛出异常。response=request.urlopen(request,timeou...
2018-05-14 23:35:04 139
原创 Python 多进程(1)
进程与线程的初步了解计算机系统中的各类任务,例如打开word,播放器,均有各自的进程(Process)。 而一个进程至少拥有一个线程,是一对多的关系。例如,播放电影的进程中,音频和视频是同步播放的,它们即为隶属于统一进程的不同线程(Thread)。 多线程和多进程最重要的一个特点就是并行,即同时进行。客观来说,并发与并行的区别这里写代码片快捷键加粗 Ctrl...
2018-05-07 21:38:15 196
原创 Linux命令学习--统计log中每个IP的访问次数
cat access.log输出该log文件的内容 sed -rn '/28\/Jan\/2015/p' 将含有该字段的的行输出来,即选定特定的日期。sed主要进行文本操作。 awk '{print $1}' |sort |uniq 输出该行第一项,并sort排序,uniq去除重复的。这样ipnum.txt里面即为所有的被访问ip. 遍历ipnum.txt里的每一个ip,在acces...
2018-05-05 19:11:35 7434 1
python demo
2018-03-14
ubuntu系统中import h5py, ImportError: No module named h5py的解决方法
2017-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人