![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫学习
文章平均质量分 52
OathkeePer2x
chill out!
展开
-
正则表达式
常用操作符:. 表示任何单个字符[ ] 字符集,对单个字符给出取值范围[^ ] 非字符集,对单个字符给出排除范围* 前一个字符0次或者无限次扩展+ 前一个字符1次或者无限次扩展? 前一个字符0次或者一次扩展 | 左右表达式任意一个{m} 扩展前一个字符m次 {m,n} 扩展前一个字符m至n次(含n) eg: PY{:3}N = PN,PYN,PYY原创 2017-11-22 17:16:07 · 275 阅读 · 0 评论 -
爬虫实例(中国大学排名前10)
1、从网络上获得大学排名内容页面def getHTMLText(url): try: r = requests.get(url,timeout = 20) r.raise_for_status r.encoding = r.apparent_encoding return r.text except: return ""2、将页面中信息提取为合适结构:d原创 2017-11-16 16:01:05 · 541 阅读 · 0 评论 -
bs4库的安装与使用
1、bs4库的安装win平台上bs库的安装:以“管理员身份运行cmd”执行 pip install beautifulsoup4来安装bs4库2、bs4库的引用主要使用BeautifulSoup 类:from bs4 import BeautifulSoup:或者直接 import bs4BeautifulSoup对应一个HTML/XML的全部内容,会以标签树的原创 2017-11-15 23:01:41 · 16445 阅读 · 0 评论 -
网络图片的爬取与存储
在补充了 with open用法以及 os 的使用之后,完成了以下网络图片爬取与存储的内容import requestsimport osurl = "https://images.csdn.net/20171113/timg.png"root = "F://"path = root + url.split('/')[-1]try: if not os.path.exists(r原创 2017-11-13 16:57:55 · 544 阅读 · 0 评论 -
用with open完成python读写
python文件读写,以后就用with open语句读写文件是最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。读写文件前,我们先必须了解一下,在磁盘上读写文件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘,所以,读写文件就是请求操作系统打开一个文件对象(通常称为文件描述符),然后,通过操作系统提供的接口从这个文件对象中读取数据(读转载 2017-11-13 16:25:33 · 3578 阅读 · 0 评论 -
request进行搜索引擎关键词提交
360搜索:import requeststry: kv = {'q':'python'} r = requests.get('http://www.so.com/s', params = kv) print(r.request.url) r.raise_for_status() r.encoding = r.apparent_encoding print(len(r.text原创 2017-11-13 16:08:21 · 5915 阅读 · 1 评论 -
修改爬虫的HTTP请求
如果遇到会对请求头进行审查的网站,他的status_code会为非200,这时候想要正常爬取,需要新建键值对kv = {’user-agent','Mozilla/5.0'},并在requests.get()里面加上headers = kv下面是实际代码import requestsurl = "https://item.jd.com/12029500.html?cpdad=1DLSU原创 2017-11-13 15:19:47 · 335 阅读 · 0 评论 -
requests简单爬虫试手
import requestsimport timedef WebInfoGet(url): try: r = requests.get(url,timeout = 20) r.raise_for_status() r.encoding = r.apparent_encoding print("爬取成功") print(r.text) except: print(原创 2017-11-13 13:09:10 · 485 阅读 · 0 评论 -
正则表达式爬虫实例
跟着mooc的课程动手做了一个简单实例import requestsimport redef getHTMLText(url,code = 'utf-8'): try: r = requests.get(url,timeout = 20) r.raise_for_status() r.encoding = code return r.text except: re原创 2017-11-22 18:46:49 · 488 阅读 · 0 评论