实践过程
石山下
这个作者很懒,什么都没留下…
展开
-
Movielens/IMDB电影数据分析(二)
经过磕磕绊绊的三天调试,终于算是独立调试出来自己写的第一个爬虫程序,虽然程序写的比较粗糙,结果也有些瑕疵,但总算是有个开始了。 之前,零星的看过爬虫的一些知识点,但是比较皮毛,当自己真的动手爬取自己想要的数据时,基本是从零开始。爬虫一般分为三步:请求网页、解析网页、存储数据。我分别卡在了解析网页和存储数据上。最后经过查找摸索,使用主流的lxml解析网页,选取方法为XPath,数据存储为需要的cs...原创 2019-02-22 20:49:22 · 2021 阅读 · 5 评论 -
Movielens/IMDB电影数据分析(三)
接着上一篇文章的内容。本文主要进行数据清洗: 电影时长不是数值,而是字符串 电影流派不是原子数据,很难提取特定的流派做分析。 上映年份格式修正 投票数修正为整型 本来以为自己爬取的数据存在两个瑕疵,但是在实际应用中发现,还有一个巨大的瑕疵:desecribe的时候,发现Votes一列不能被describe。 进行info查看信息的时候,发现Votes是一组对象,不为整型。使用int(...原创 2019-02-24 12:33:33 · 1403 阅读 · 1 评论 -
Movielens/IMDB电影数据分析(一)
该项目源自科赛网的训练项目。 背景 项目简介 此数据集包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据。 MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用。 这些数据是由1995年1月9日至2015年3月31日期间的138493个用户创建。 练习内容 MDB...原创 2019-02-19 21:16:00 · 3587 阅读 · 2 评论 -
利用逻辑回归进行员工离职预测
数据城堡上的比赛,也是自己第一次独立完成的练手项目,只做了基本的数据特征处理,还不够精致。初始得分0.802,经过优化后0.877。 import pandas as pd import numpy as np import matplotlib.pyplot as plt # 1.获取数据集 data = pd.read_csv('pfm_train.csv') # 将目标值抑制最后一列 ...原创 2019-03-09 20:38:48 · 1720 阅读 · 0 评论 -
日期数据处理:按日期筛选、显示及统计数据
KingCounty房价预测 参考文章:https://www.jianshu.com/p/b91e3ae940ec https://blog.csdn.net/sinat_35512245/article/details/79791190原创 2019-03-10 20:45:44 · 4474 阅读 · 0 评论