- 博客(5)
- 收藏
- 关注
原创 豆瓣的影评爬取
豆瓣的影评爬取相比较于上一篇新闻类数据的爬取,这篇文章多了一些关于登录账号的处理有时登陆网站需要进行头部伪装, 比如增加头部, 还有模拟服务器登陆 * header: 我们可以加一个header(一些反爬虫的机制),设置置代理,有些网站是反爬虫,所以要将其伪装成浏览器 * Format:是登录的账号和密码以及登录失败是重定向的网址,需要注意的是登录账号和密码的step1:我们先看一...
2018-04-11 17:32:42 1950
原创 新闻数据抓取
新闻数据抓取这篇文章,主要是记录自己学习爬虫过程。整篇部分会分为2篇文章,1,爬取http的网页(新闻网站):获取各类主题的新闻的内容,eg:金融,体育,娱乐等等。2,爬取https的网页(豆瓣):获取豆瓣电影的影评。从简到难,所以我们先http从爬取第一部分:爬虫基础1,简单的知识的介绍先简单看一下http和https两者的概念的区别参考...
2018-04-11 17:27:33 8871 1
原创 盐城汽车上牌量预测
盐城汽车上牌量预测import所需要的包进来#coding:utf-8import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inline第一部分:查看数据train和test_A的数据样式能够看到train中有4个属性特征,date day_of_week...
2018-04-11 17:20:42 1550 2
原创 初学latex的文献引用\bibliographystyle使用一些状况
接到上级指示昨天奋战到半夜,latex的一些情况,1,首先文献引用 主要是出现这个错误! Package natbib Error: Bibliography not compatible with author-year citations.(natbib) Press to continue in numerical citation style.S
2015-02-03 16:28:30 86252 3
原创 c++读取.raw格式图像
第一次接触用c++进行图像处理,首先就是对于裸格式.RAW的图片进行处理,在网上也是找了很久,但是都没有合适的,知识搜集到一些信息,就是说.raw是8位二进,,很好处理,然后就没有搜集到更多的信息了,首先申明自己是刚入手c++,有些c语言的基础,很是羞愧与自己都研究生了,编码竟然还那么弱,没办法啊,被大神鄙视心里还是有点不舒服的,首先之前完全不了解图片的格式,研究了一下.bmp的格式之后才联想
2014-11-03 22:22:30 20550 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人