![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
文章平均质量分 76
akon_wang_hkbu
这个作者很懒,什么都没留下…
展开
-
爬虫第一课(访问网站的原理和区别)
(转载)原理区别: 在浏览器中输入网址访问资源都是通过GET方式;在FORM提交中,可以通过Method指定提交方式为GET或者POST,默认为GET提交。 HTTP 定义了与服务器交互的不同方法,最常用的有4种,Put(增),Delete(删),Post(改),Get(查),即增删改查: 1)Get, 它用于获取信息,注意,他只是获取、查询数据,也就是说它不会修原创 2017-08-07 10:07:48 · 495 阅读 · 0 评论 -
爬虫第二课(handler,cookie)
Handlerimport urllib.request proxy_handler = urllib.request.ProxyHandler({ 'http': 'http://127.0.0.1:9743', 'https': 'https://127.0.0.1:9743' }) opener = urllib.request.build_opener(proxy_han原创 2017-08-08 19:28:35 · 220 阅读 · 0 评论 -
爬虫第三课(正则表达式)
正则表达式: 基本规则 ‘[‘ ‘]’ 字符集合设定符 由一对方括号括起来的字符,表明一个字符集合,能够匹配包含在其中的任意一个字符。比如 [abc123],表明字符’a’ ‘b’ ‘c’ ‘1’ ‘2’ ‘3’都符合它的要求。可以被匹配。 在’[‘ ‘]’中还可以通过 ’-‘ 减号来指定一个字符集合的范围,比如可以用[a-zA-Z]来指定所以英文字母的大小写,不可以把原创 2017-08-09 19:41:40 · 236 阅读 · 0 评论 -
爬虫第四课(RegEx爬取新闻网站)
import requests import re def crawler163(): content = requests.get('http://www.163.com/').text pattern1 = re.compile('', re.S) results_part = re.findall(pattern1, content) pattern2 = r原创 2017-08-10 17:58:11 · 221 阅读 · 0 评论 -
爬虫第五课(beautifulsoup)
beautifulsoup 以下内容为转载 beautiful soup选择器之CSS选择器 BeautifulSoup支持大部分的CSS选择器,其语法为:向tag或soup对象的.select()方法中传入字符串参数,选择的结果以列表形式返回。 tag.select("string") BeautifulSoup.select("string") 源代码转载 2017-08-10 18:00:08 · 196 阅读 · 0 评论