自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 爬虫踩过的坑!!!

case:爬取10万数量级的英文新闻。目标站点:卫报(是英国的全国性综合内容日报)看我细数那些坑: xpath路径容易搞错。google网页自带的copy.xpath得到的路径一不留神就会出错,而且他给的路径有时灰常复杂,这就需要机智的你找到规律,略微修改,利用ctrl+f ,检查修改的路径能否如愿以偿。 scrapy.Request 前面常常会丢掉yield,然后就会发生callback函数打死都

2017-08-07 21:05:39 459 1

原创 特征工程笔记(1)

标准化数值变量数据集中的数值变量通常在不同的尺度上,如高度,重量等。建议将这些变量标准化以使它们达到相同的规模。标准化的一个很好的例子是身体质量指数(BMI),它是用于通过将体重测量与身高标准化来确定人是体重不足或超重的一种措施,以使不同人的BMI相当。未标准化变量可能会导致算法对于更高规模的变量产生不适当的应用。对于许多机器学习算法(如SVM,神经网络,K-means等)来说,这一点尤为正确。标准

2017-07-30 19:17:24 299

原创 爬虫中的'伪装者'--header

header中有哪些信息User_Agent: 用户代理.是一种向访问网站提供你所使用的浏览器类型,操作系统及版本,cpu类型,浏览器渲染引擎,浏览器语言,浏览器插件等信息的标识.UA字符串在每次浏览器HTTP请求时发送到服务器.Referer: HTTP referer 是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,

2017-07-21 21:26:31 495

原创 python编码问题

python requests 的content和text区别 html = requests.get('xxxxxx',cookies=cookies).text html = requests.get('xxxxxx',cookies=cookies).content 那r.text与r.content有什么区别呢? 分析requests的源代码发现,r.text返回的是Uni

2017-07-19 10:44:57 223

原创 python 学习笔记

目录 Python 基础数据类型及基本操作 数据容器 列表表达式和字典表达式 判断语句 循环语句 定义函数 文件读写 正则表达式 对类(class)的理解 python 基础数据结构、 字符串 数值型 布尔型 基本操作 变量 公式计算 正则表达式正则表达式在线验证工具是:[http://regexr.com/]2个函数help,dirhelp(str)#查看关于字符串的操作方法dir(list)#查

2017-07-15 12:04:09 314

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除