![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
Python,主要是用于数据分析,数据挖掘相关问题的思考与总结
huanglv997
这个作者很懒,什么都没留下…
展开
-
【无标题】
python循环赋值原创 2023-02-26 16:30:22 · 89 阅读 · 1 评论 -
Kaggle:Home Credit Default Risk(住房贷款破产风险)报告部分
项目来源:https://www.kaggle.com/c/home-credit-default-risk/overview1. Data mining objective and exploratory analysisMany people find it difficult to obtain loans because of insufficient or non-existent credit records. To evaluate whether those clients who do原创 2020-07-11 23:08:33 · 711 阅读 · 0 评论 -
【Python】批量从doc简历中提取出需要的信息
最近帮公司HR从智联招聘下载简历录入信息,写了个小程序自动录入。第一步 把doc文件转为txt文件 因为doc文件中嵌套大量隐藏表格,超链接之类的格式,用docx这个库读取时很多信息显示不出来(也可能是我不会),就想到把doc转换为无格式的txt文件。第二步 从txt文件中提取信息 转换为txt后惊喜的发现不同文件的相同信息基本都在相同的位置,比如姓名、性别; ...原创 2020-03-14 16:52:28 · 2000 阅读 · 1 评论 -
【爬虫基础】jQuery信息在url中是个啥
我也不知道。。。。。。但有了jQuery,无法解析并提取信息。解决方式:http://push2.eastmoney.com/api/qt/clist/get?pn=2&pz=50&po=1&np=1&ut=b2884a393a59ad64002292a3e90d46a5&fltt=2&invt=2&fid0=f4001&fid...原创 2020-02-28 21:54:02 · 355 阅读 · 0 评论 -
【爬虫基础】爬取学校官网分页招聘信息
**爬取某学校就业网站招聘信息**用到的包from urllib.request import urlopenimport requestsimport json一、获取不同页面的url在页面点击F12,通过network中获取不同网页的url,观察区别1st page:Request URL: http://job.ustb.edu.cn/front/zp_query/zp...原创 2020-02-28 21:24:01 · 2370 阅读 · 0 评论 -
集成学习
Bagging,Boosting以及Stacking(1)Bagging + 决策树 = 随机森林(2)AdaBoost + 决策树 = 提升树(3)Gradient Boosting + 决策树 = GBDT一、Boosting1)Adaboosthttps://www.cnblogs.com/willnote/p/6801496.html2)Gradient Boostingh...转载 2020-01-18 17:46:48 · 78 阅读 · 0 评论 -
数据预处理方法
数据导入初步看变量间的关系可视化,facetgrid删除多于列从现有列中提取有用信息,可能使用到正则表达式将categorical变成ordinal (map,labelEcoder,get_dummies)处理缺失值*1) random number 代替2)同类的均值、中位数代替# 对于train_df和test_df的同时修改,可以建li...原创 2020-01-16 21:00:08 · 154 阅读 · 0 评论 -
约分
约分成整数(非四舍五入)int()约分成最近的0.5int(number/ 0.5 + 0.5)* 0.5原创 2020-01-16 17:18:09 · 210 阅读 · 0 评论 -
清洗数据时怎么把non-numerical变成numerical
get_dummies 会生成n-1个虚拟变量e.g. pd.get_dummies(data)LabelEcodertitle_mapping = {“Mr”: 1, “Miss”: 2, “Mrs”: 3, “Master”: 4, “Rare”: 5}for dataset in combine:dataset[‘Title’] = dataset[‘Title’].map(tit...原创 2019-12-16 21:18:10 · 147 阅读 · 0 评论