笔记
文章平均质量分 68
summer6364
这个作者很懒,什么都没留下…
展开
-
python 学习笔记
目录 Python 基础数据类型及基本操作 数据容器 列表表达式和字典表达式 判断语句 循环语句 定义函数 文件读写 正则表达式 对类(class)的理解 python 基础数据结构、 字符串 数值型 布尔型 基本操作 变量 公式计算 正则表达式正则表达式在线验证工具是:[http://regexr.com/]2个函数help,dirhelp(str)#查看关于字符串的操作方法dir(list)#查原创 2017-07-15 12:04:09 · 314 阅读 · 0 评论 -
爬虫踩过的坑!!!
case:爬取10万数量级的英文新闻。目标站点:卫报(是英国的全国性综合内容日报)看我细数那些坑: xpath路径容易搞错。google网页自带的copy.xpath得到的路径一不留神就会出错,而且他给的路径有时灰常复杂,这就需要机智的你找到规律,略微修改,利用ctrl+f ,检查修改的路径能否如愿以偿。 scrapy.Request 前面常常会丢掉yield,然后就会发生callback函数打死都原创 2017-08-07 21:05:39 · 459 阅读 · 1 评论 -
python编码问题
python requests 的content和text区别 html = requests.get('xxxxxx',cookies=cookies).text html = requests.get('xxxxxx',cookies=cookies).content 那r.text与r.content有什么区别呢? 分析requests的源代码发现,r.text返回的是Uni原创 2017-07-19 10:44:57 · 223 阅读 · 0 评论 -
爬虫中的'伪装者'--header
header中有哪些信息User_Agent: 用户代理.是一种向访问网站提供你所使用的浏览器类型,操作系统及版本,cpu类型,浏览器渲染引擎,浏览器语言,浏览器插件等信息的标识.UA字符串在每次浏览器HTTP请求时发送到服务器.Referer: HTTP referer 是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,原创 2017-07-21 21:26:31 · 495 阅读 · 0 评论