自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

七七

数据爬取、数据分析,走起!

  • 博客(5)
  • 收藏
  • 关注

原创 数据标准化

转自https://www.cnblogs.com/super-saiyan-blue/p/9330833.html一:数据标准化# coding=utf-8# 统计训练集的 mean 和 std 信息from sklearn.preprocessing import StandardScalerimport numpy as npdef test_algorithm(): ...

2019-09-11 10:13:31 378

原创 业务预测

一:数据类型①带有时间序列的数据②和业务有关二:方法①创建窗函数是必须的带有时间属性的数据,可能在单独的一天数据特征不明显,比如检测爬虫,可能一小段时间内ip没有异常,可以监控一窗口时间段ip的行为,比如list=[1,3,7,11,14],可以提取1-3天的数据特征,3-7天,7-11天,用时间段的特征作为数据特征②尽可能贴近业务构建特征三:预测需要根据线下业务需求构建合适的模型...

2019-09-01 14:44:05 419

原创 验证码的识别

一:图形验证码的识别1.准备工作①安装pytesseract pip install pytesseract②在安装过程中存在坑,实际运行时提示路径不在指定位置,处理方式参考https://blog.csdn.net/wang_hugh/article/details/807609402.识别测试①图片中数字和字母清晰,无噪声from PIL import Imageimpor...

2019-08-18 20:41:18 563

原创 CSV文件存储

1.写入①写入非字典类型数据import csvwith open(r'C:\Users\wcl\Desktop\files\1.csv','w') as csvfile: writer=csv.writer(csvfile) writer.writerow(['id','name','age']) writer.writerow(['10001','Mike','2...

2019-08-04 23:04:13 244

原创 抓取猫眼电影TOP10榜数据

1.本节目标抓取猫眼电影TOP100榜的电影名称、时间、评分、图片等信息,抓取的站点URL为https://maoyan.com/board/4,提取的结果以文本形式保存下来2.准备工作请确保requests、json、re库安装成功3.抓取分析我们抓取的目标站点为https://maoyan.com/board/4,打开之后便可以查看榜单信息,如图1-1所示:排名第一的电影是霸王别姬...

2019-08-04 22:41:46 1292

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除