爬虫
阶艺勿听
这个作者很懒,什么都没留下…
展开
-
《精通python网络爬虫》学习笔记一
Urllib库URLErrorUrllib库环境 python 3.x 导入 import urllib.request 打开一个网页 file = urllib.request.urlopen("http://www.baidu.com") 获取打开网页的信息print(file.info())print(file.getcode())print(fi...原创 2018-07-19 10:52:01 · 256 阅读 · 0 评论 -
《精通python网络爬虫》学习笔记二
正则表达式原子元字符模式修正贪婪模式与懒惰模式正则表达式常见函数re.match()re.research()全局匹配函数re.sub()正则表达式原子普通字符 非打印字符(如\n) 通用字符 \w任一字母数字下划线 \d任一十进制数 \s任一空白字符 原子表 [xyz]一组地位平等的原子 [^xyz]代表除了xy...原创 2018-07-19 14:55:17 · 561 阅读 · 1 评论 -
《精通python网络爬虫》学习笔记三
CookieCookiejarCookieCookiejar先通过F12,点击登录按钮找到post方法对应的request url。然后在网页源码中找到表单的name。 先进行无Cookie的登录url = "....." #登录网址postdata = urllib.parse.urlencode({"username":"....","passw...原创 2018-07-19 16:06:44 · 221 阅读 · 0 评论 -
《精通python网络爬虫》学习笔记四——多线程爬虫
多线程爬虫多线程基础队列基础多线程爬虫多线程爬虫多线程基础import threading多线程基础import threadingclass A(threading.Thread): def __init__(self): threading.Thread.__init__(self) def run(self):...原创 2018-07-20 17:08:04 · 376 阅读 · 0 评论