summer6364-CSDN博客

原创爬虫踩过的坑！！！

case：爬取10万数量级的英文新闻。目标站点：卫报（是英国的全国性综合内容日报）看我细数那些坑： xpath路径容易搞错。google网页自带的copy.xpath得到的路径一不留神就会出错，而且他给的路径有时灰常复杂，这就需要机智的你找到规律，略微修改，利用ctrl+f ,检查修改的路径能否如愿以偿。 scrapy.Request 前面常常会丢掉yield，然后就会发生callback函数打死都

2017-08-07 21:05:39 459 1

原创特征工程笔记（1）

标准化数值变量数据集中的数值变量通常在不同的尺度上，如高度，重量等。建议将这些变量标准化以使它们达到相同的规模。标准化的一个很好的例子是身体质量指数（BMI），它是用于通过将体重测量与身高标准化来确定人是体重不足或超重的一种措施，以使不同人的BMI相当。未标准化变量可能会导致算法对于更高规模的变量产生不适当的应用。对于许多机器学习算法（如SVM，神经网络，K-means等）来说，这一点尤为正确。标准

2017-07-30 19:17:24 299

原创爬虫中的＇伪装者＇－－header

header中有哪些信息User_Agent: 用户代理．是一种向访问网站提供你所使用的浏览器类型，操作系统及版本，cpu类型，浏览器渲染引擎，浏览器语言，浏览器插件等信息的标识．UA字符串在每次浏览器HTTP请求时发送到服务器．Referer: HTTP referer 是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，

2017-07-21 21:26:31 495

原创 python编码问题

python requests 的content和text区别 html = requests.get('xxxxxx',cookies=cookies).text html = requests.get('xxxxxx',cookies=cookies).content 那r.text与r.content有什么区别呢？分析requests的源代码发现，r.text返回的是Uni

2017-07-19 10:44:57 223

原创 python 学习笔记

目录 Python 基础数据类型及基本操作数据容器列表表达式和字典表达式判断语句循环语句定义函数文件读写正则表达式对类（class）的理解 python 基础数据结构、字符串数值型布尔型基本操作变量公式计算正则表达式正则表达式在线验证工具是：[http://regexr.com/]2个函数help,dirhelp(str)#查看关于字符串的操作方法dir(list)#查

2017-07-15 12:04:09 314

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫踩过的坑！！！

原创 特征工程笔记（1）

原创 爬虫中的＇伪装者＇－－header

原创 python编码问题

原创 python 学习笔记

空空如也

空空如也

原创爬虫踩过的坑！！！

原创特征工程笔记（1）

原创爬虫中的＇伪装者＇－－header