- 博客(5)
- 收藏
- 关注
原创 爬虫踩过的坑!!!
case:爬取10万数量级的英文新闻。目标站点:卫报(是英国的全国性综合内容日报)看我细数那些坑: xpath路径容易搞错。google网页自带的copy.xpath得到的路径一不留神就会出错,而且他给的路径有时灰常复杂,这就需要机智的你找到规律,略微修改,利用ctrl+f ,检查修改的路径能否如愿以偿。 scrapy.Request 前面常常会丢掉yield,然后就会发生callback函数打死都
2017-08-07 21:05:39 459 1
原创 特征工程笔记(1)
标准化数值变量数据集中的数值变量通常在不同的尺度上,如高度,重量等。建议将这些变量标准化以使它们达到相同的规模。标准化的一个很好的例子是身体质量指数(BMI),它是用于通过将体重测量与身高标准化来确定人是体重不足或超重的一种措施,以使不同人的BMI相当。未标准化变量可能会导致算法对于更高规模的变量产生不适当的应用。对于许多机器学习算法(如SVM,神经网络,K-means等)来说,这一点尤为正确。标准
2017-07-30 19:17:24 299
原创 爬虫中的'伪装者'--header
header中有哪些信息User_Agent: 用户代理.是一种向访问网站提供你所使用的浏览器类型,操作系统及版本,cpu类型,浏览器渲染引擎,浏览器语言,浏览器插件等信息的标识.UA字符串在每次浏览器HTTP请求时发送到服务器.Referer: HTTP referer 是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,
2017-07-21 21:26:31 495
原创 python编码问题
python requests 的content和text区别 html = requests.get('xxxxxx',cookies=cookies).text html = requests.get('xxxxxx',cookies=cookies).content 那r.text与r.content有什么区别呢? 分析requests的源代码发现,r.text返回的是Uni
2017-07-19 10:44:57 223
原创 python 学习笔记
目录 Python 基础数据类型及基本操作 数据容器 列表表达式和字典表达式 判断语句 循环语句 定义函数 文件读写 正则表达式 对类(class)的理解 python 基础数据结构、 字符串 数值型 布尔型 基本操作 变量 公式计算 正则表达式正则表达式在线验证工具是:[http://regexr.com/]2个函数help,dirhelp(str)#查看关于字符串的操作方法dir(list)#查
2017-07-15 12:04:09 314
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人