- 博客(5)
- 收藏
- 关注
原创 数据标准化
转自https://www.cnblogs.com/super-saiyan-blue/p/9330833.html一:数据标准化# coding=utf-8# 统计训练集的 mean 和 std 信息from sklearn.preprocessing import StandardScalerimport numpy as npdef test_algorithm(): ...
2019-09-11 10:13:31 407
原创 业务预测
一:数据类型①带有时间序列的数据②和业务有关二:方法①创建窗函数是必须的带有时间属性的数据,可能在单独的一天数据特征不明显,比如检测爬虫,可能一小段时间内ip没有异常,可以监控一窗口时间段ip的行为,比如list=[1,3,7,11,14],可以提取1-3天的数据特征,3-7天,7-11天,用时间段的特征作为数据特征②尽可能贴近业务构建特征三:预测需要根据线下业务需求构建合适的模型...
2019-09-01 14:44:05 437
原创 验证码的识别
一:图形验证码的识别1.准备工作①安装pytesseract pip install pytesseract②在安装过程中存在坑,实际运行时提示路径不在指定位置,处理方式参考https://blog.csdn.net/wang_hugh/article/details/807609402.识别测试①图片中数字和字母清晰,无噪声from PIL import Imageimpor...
2019-08-18 20:41:18 577
原创 CSV文件存储
1.写入①写入非字典类型数据import csvwith open(r'C:\Users\wcl\Desktop\files\1.csv','w') as csvfile: writer=csv.writer(csvfile) writer.writerow(['id','name','age']) writer.writerow(['10001','Mike','2...
2019-08-04 23:04:13 255
原创 抓取猫眼电影TOP10榜数据
1.本节目标抓取猫眼电影TOP100榜的电影名称、时间、评分、图片等信息,抓取的站点URL为https://maoyan.com/board/4,提取的结果以文本形式保存下来2.准备工作请确保requests、json、re库安装成功3.抓取分析我们抓取的目标站点为https://maoyan.com/board/4,打开之后便可以查看榜单信息,如图1-1所示:排名第一的电影是霸王别姬...
2019-08-04 22:41:46 1323
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人