- 博客(11)
- 收藏
- 关注
原创 利用pandas将非数值数据转换成数值
handle non numerical data举个例子,将性别属性男女转换成0-1,精通ML的小老弟们可以略过本文~~,这里不考虑稀疏向量的使用,仅提供一些思路。本来想直接利用pandas的DataFrame.iloc加上for循环直接转换,但试过一遍之后,原数据并有改变。。。。蛋疼写了一个比较 菜的函数,如下。# 非数值列处理函数def handel_non_numerical_d...
2019-05-24 14:01:38 7794 3
原创 KMeans聚类,GMM算法,EM算法通俗详解
首先推荐两个链接1 刘建平博客园:https://www.cnblogs.com/pinard/category/894692.html【具体内容自行查看】2 ApacheCN github:https://github.com/apachecn/AiLearning/blob/master/docs/ml/10.k-means聚类.md注:本文基本没有公式推导,写这篇博客的起因是我注意到一...
2019-05-21 17:59:41 1832
原创 fiddler抓包日志[json解析,pandas处理]
实习公司要求抓一家酒店APP数据:因为自己本身是做机器学习数据挖掘并不太懂前端,抓包也是刚学,思路可能有点菜具体思路:1,fiddler与手机联通之后【具体步骤网上很多在此不做介绍】,进入fiddler中的fiddlerScript修改OnBeforeResponse对特定的网站进行抓取包–>如下图了解javascript应该可以看懂,如果小白:百度【fiddler数据包自动保存办...
2019-05-21 17:54:40 6365 1
原创 scrapy爬虫日志_2:[爬取智联招聘]
问题1,item 报错 如下图具体原因不去追究【实在没工夫,这框架先用着,,,,】,解决方案:在item中追加_id代码这个是spider板块即主体部分:***主要思路是先转为json文件,然后对json文件进行解析得到链接,再对链接进行分析爬取Chrome打开网页->检查->network->XHR->复制Request-url 在postman(一个软件...
2019-05-11 16:38:54 412 1
转载 python决策树可视化
转载:https://blog.csdn.net/linhai1028/article/details/79827331以后自己看 方便
2019-05-10 09:28:37 840
原创 matplotlib :lengend图例参数(bbox_to_anchor)的使用
参考博客:https://blog.csdn.net/helunqu2017/article/details/78641290缘起:仿写决策树代码时 遇到plt.legend(bbox_to_anchor=(1,0.2))此参数用来确定图例在轴的位置区别如下两图完全出于强迫症 ,一般情况这个参数其实可以不用设置,但如果出现图例遮盖了图像便需要调整…...
2019-05-09 21:13:53 8867
原创 python time及timeit模块
最近在学数据结构与算法,复杂度分析后有一道题:*两次调用time.time()的结果之间的差,由于操作系统可能只是在这段时间的一部分中使用了cpu,经过的时间可能并不能反映出python代码使用cpu的实际时间,请寻找一种解决方案,精确的记录代码使用cpu时间 *我的思路是 摒弃使用time.time()或者time.clock()相减的方法 如下def fun1(num): number...
2019-05-09 13:41:29 1184
原创 MongoDB数据库安装
官网下载官网链接下载即可,这里不做描述数据和日志文件个人建议这种文件放在d盘(目前下载过程会有提示,如下图;将目录c改成d)配置进入mongodb文件目录,命令提示符(直接将文件路径输入cmd即可,如下图)然后输入命令 mongod.exe --dbpath D:\MongoDB\data\db(此路径可自己设置) 将以后数据库保存在此文件夹中最后出现27017即为成功,日...
2019-05-08 18:14:14 146
原创 scrapy爬虫学习日志[crawl框架爬取pexels图片]
文件生成1直接进入cd 【pycharm终端即可】scrapy.strstproject imagescd imagesscrapy genspider -t crawl pexels(爬虫主题文件名) pexels.com(网站名称)步骤设置注:scrapy框架内部提供两个 Item PipelineFilesPipeline 用于下载文件ImagePipeline 用于下载 ...
2019-05-05 12:55:56 327
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人