自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 利用pandas将非数值数据转换成数值

handle non numerical data举个例子,将性别属性男女转换成0-1,精通ML的小老弟们可以略过本文~~,这里不考虑稀疏向量的使用,仅提供一些思路。本来想直接利用pandas的DataFrame.iloc加上for循环直接转换,但试过一遍之后,原数据并有改变。。。。蛋疼写了一个比较 菜的函数,如下。# 非数值列处理函数def handel_non_numerical_d...

2019-05-24 14:01:38 7676 3

原创 KMeans聚类,GMM算法,EM算法通俗详解

首先推荐两个链接1 刘建平博客园:https://www.cnblogs.com/pinard/category/894692.html【具体内容自行查看】2 ApacheCN github:https://github.com/apachecn/AiLearning/blob/master/docs/ml/10.k-means聚类.md注:本文基本没有公式推导,写这篇博客的起因是我注意到一...

2019-05-21 17:59:41 1775

原创 fiddler抓包日志[json解析,pandas处理]

实习公司要求抓一家酒店APP数据:因为自己本身是做机器学习数据挖掘并不太懂前端,抓包也是刚学,思路可能有点菜具体思路:1,fiddler与手机联通之后【具体步骤网上很多在此不做介绍】,进入fiddler中的fiddlerScript修改OnBeforeResponse对特定的网站进行抓取包–>如下图了解javascript应该可以看懂,如果小白:百度【fiddler数据包自动保存办...

2019-05-21 17:54:40 6265 1

转载 fiddler抓包详解

https://blog.csdn.net/dhksahdash/article/details/80267990转

2019-05-19 16:56:38 680

原创 scrapy爬虫日志_2:[爬取智联招聘]

问题1,item 报错 如下图具体原因不去追究【实在没工夫,这框架先用着,,,,】,解决方案:在item中追加_id代码这个是spider板块即主体部分:***主要思路是先转为json文件,然后对json文件进行解析得到链接,再对链接进行分析爬取Chrome打开网页->检查->network->XHR->复制Request-url 在postman(一个软件...

2019-05-11 16:38:54 370 1

转载 python决策树可视化

转载:https://blog.csdn.net/linhai1028/article/details/79827331以后自己看 方便

2019-05-10 09:28:37 814

原创 matplotlib :lengend图例参数(bbox_to_anchor)的使用

参考博客:https://blog.csdn.net/helunqu2017/article/details/78641290缘起:仿写决策树代码时 遇到plt.legend(bbox_to_anchor=(1,0.2))此参数用来确定图例在轴的位置区别如下两图完全出于强迫症 ,一般情况这个参数其实可以不用设置,但如果出现图例遮盖了图像便需要调整…...

2019-05-09 21:13:53 8752

原创 python time及timeit模块

最近在学数据结构与算法,复杂度分析后有一道题:*两次调用time.time()的结果之间的差,由于操作系统可能只是在这段时间的一部分中使用了cpu,经过的时间可能并不能反映出python代码使用cpu的实际时间,请寻找一种解决方案,精确的记录代码使用cpu时间 *我的思路是 摒弃使用time.time()或者time.clock()相减的方法 如下def fun1(num): number...

2019-05-09 13:41:29 1163

原创 MongoDB数据库安装

官网下载官网链接下载即可,这里不做描述数据和日志文件个人建议这种文件放在d盘(目前下载过程会有提示,如下图;将目录c改成d)配置进入mongodb文件目录,命令提示符(直接将文件路径输入cmd即可,如下图)然后输入命令 mongod.exe --dbpath D:\MongoDB\data\db(此路径可自己设置) 将以后数据库保存在此文件夹中最后出现27017即为成功,日...

2019-05-08 18:14:14 125

转载 pycharm配置mongodb插件及可视化

@[TOC]转载(这里写自定义目录标题)遇到一个问题:pycharm插件连不了网

2019-05-08 11:16:44 1042

原创 scrapy爬虫学习日志[crawl框架爬取pexels图片]

文件生成1直接进入cd 【pycharm终端即可】scrapy.strstproject imagescd imagesscrapy genspider -t crawl pexels(爬虫主题文件名) pexels.com(网站名称)步骤设置注:scrapy框架内部提供两个 Item PipelineFilesPipeline 用于下载文件ImagePipeline 用于下载 ...

2019-05-05 12:55:56 303

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除