爬虫知识点收集
countofdane
能用脚本解决的打死不用手
展开
-
Python Re模块 常用函数
Python Re模块 常用函数#返回pattern对象re.compile(string[,flag]) #以下为匹配所用函数re.match(pattern,string[,flags])re.search(pattern,string[,flags])re.split(pattern,string[,maxsplit])re.findall(pattern,st转载 2017-10-10 15:18:53 · 1441 阅读 · 0 评论 -
如何删除 字符串中的 emoji 表情符号
在爬取数据时候遇到昵称中有 emoji 符号的在存储数据库的时候会遇到报错,这是因为 emoji 占用四个字符的大小,如果昵称很重要,必须保存完整昵称的,需要修改数据库的设置即可 如果保存完整的昵称不是很重要可以考虑删除昵称中存在的 emoji 符号,方法如下我看了网上的其他资料,是用 emoji 的编码区间过滤的,很明显有缺陷,因为很难找到很全的 emoji 编码区间表所以我就...原创 2018-08-28 10:20:28 · 5408 阅读 · 2 评论 -
在登录页面点击登录之后页面重定向了无数次,如何 用Python 拿到重定向前的 cookie
关住 公 纵 号 “ 阿蒙课程分享 ” 获得学习资料及趣味分享 # -*- coding:utf-8 -*- # author:murongtiedan# updatetime:2018/3/14# 功能:爬虫之模拟登录,urllib和requests都用了... 问题背景:在登录页面点击登录之后页面重定向了无数次,想获取某次重定向前的页面的 cookie 作为后来值应用...原创 2018-03-14 18:19:57 · 2005 阅读 · 0 评论 -
爬取百度贴吧楼层信息实战代码
关住 公 纵 号 “ 阿蒙课程分享 ” 获得学习资料及趣味分享 __author__ = 'CQC'# -*- coding:utf-8 -*-import urllibimport urllib2import re#处理页面标签类class Tool: #去除img标签,7位长空格 removeImg = re.compile('<img.*?>| {7}|')...转载 2017-10-12 16:46:21 · 546 阅读 · 0 评论 -
爬取环境信息实例
【python3】#-*- coding:utf-8 -*-#author:lvfengwen#date:2017/10/12#descript:爬取环境配置信息import urllib,requestsimport http.cookiejarimport re# import pprintimport gzip#cookielib --> http.cooki原创 2017-10-13 18:48:19 · 272 阅读 · 0 评论 -
代码实现(一): 用Python抓取指定页面
1234567#encoding:UTF-8importurllib.request url="http://www.baidu.com"data=urllib.request.urlopen(url).read()data=data.decode('UTF-转载 2017-10-13 15:21:31 · 312 阅读 · 0 评论 -
为什么爬虫正则更多的用非贪婪匹配模式?
源字符串:aatest1bbtest2cc正则表达式一:.*匹配结果一:test1bbtest2正则表达式二:.*?匹配结果二:test1(这里指的是一次匹配结果,所以没包括test2)转载 2017-10-12 14:54:19 · 212 阅读 · 0 评论 -
正则表达式实例(.*?)
正则表达式实例:#!/usr/bin/pythonimport reline = "Cats are smarter than dogs"matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)if matchObj: print "matchObj.group() : ", matchObj.group()转载 2017-10-12 14:44:17 · 3664 阅读 · 0 评论 -
常见HTTPError对应相应的状态码
100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。102:继续处理 由WebDAV(RFC 2518)扩展的状态码,代表处理将被继续执行。200:请求成功转载 2017-10-11 15:18:17 · 2155 阅读 · 0 评论 -
python的requests在网络请求中添加cookies参数
哎,好久没有学习爬虫了,现在想要重新拾起来。发现之前学习爬虫有些粗糙,竟然连requests中添加cookies都没有掌握,惭愧。废话不宜多,直接上内容。我们平时使用requests获取网络内容很简单,几行代码搞定了,例如:import requestsres=requests.get("https://cloud.flyme.cn/browser/index.jsp")print r...转载 2019-01-23 08:40:06 · 1448 阅读 · 0 评论