2019年05月_可以调素琴

原创利用pandas将非数值数据转换成数值

handle non numerical data举个例子，将性别属性男女转换成0-1，精通ML的小老弟们可以略过本文~~，这里不考虑稀疏向量的使用，仅提供一些思路。本来想直接利用pandas的DataFrame.iloc加上for循环直接转换，但试过一遍之后，原数据并有改变。。。。蛋疼写了一个比较菜的函数，如下。# 非数值列处理函数def handel_non_numerical_d...

2019-05-24 14:01:38 7794 3

首先推荐两个链接1 刘建平博客园：https://www.cnblogs.com/pinard/category/894692.html【具体内容自行查看】2 ApacheCN github：https://github.com/apachecn/AiLearning/blob/master/docs/ml/10.k-means聚类.md注：本文基本没有公式推导，写这篇博客的起因是我注意到一...

2019-05-21 17:59:41 1832

原创 fiddler抓包日志[json解析，pandas处理]

实习公司要求抓一家酒店APP数据：因为自己本身是做机器学习数据挖掘并不太懂前端，抓包也是刚学，思路可能有点菜具体思路：1，fiddler与手机联通之后【具体步骤网上很多在此不做介绍】，进入fiddler中的fiddlerScript修改OnBeforeResponse对特定的网站进行抓取包–>如下图了解javascript应该可以看懂，如果小白：百度【fiddler数据包自动保存办...

2019-05-21 17:54:40 6365 1

转载 fiddler抓包详解

https://blog.csdn.net/dhksahdash/article/details/80267990转

2019-05-19 16:56:38 713

原创 scrapy爬虫日志_2:[爬取智联招聘]

问题1,item 报错如下图具体原因不去追究【实在没工夫，这框架先用着，，，，】，解决方案：在item中追加_id代码这个是spider板块即主体部分：***主要思路是先转为json文件，然后对json文件进行解析得到链接，再对链接进行分析爬取Chrome打开网页->检查->network->XHR->复制Request-url 在postman（一个软件...

2019-05-11 16:38:54 412 1

转载 python决策树可视化

转载：https://blog.csdn.net/linhai1028/article/details/79827331以后自己看方便

2019-05-10 09:28:37 840

原创 matplotlib :lengend图例参数（bbox_to_anchor）的使用

参考博客：https://blog.csdn.net/helunqu2017/article/details/78641290缘起：仿写决策树代码时遇到plt.legend(bbox_to_anchor=(1,0.2))此参数用来确定图例在轴的位置区别如下两图完全出于强迫症，一般情况这个参数其实可以不用设置，但如果出现图例遮盖了图像便需要调整…...

2019-05-09 21:13:53 8867

原创 python time及timeit模块

最近在学数据结构与算法，复杂度分析后有一道题：*两次调用time.time()的结果之间的差，由于操作系统可能只是在这段时间的一部分中使用了cpu，经过的时间可能并不能反映出python代码使用cpu的实际时间，请寻找一种解决方案，精确的记录代码使用cpu时间 *我的思路是摒弃使用time.time()或者time.clock()相减的方法如下def fun1(num): number...

2019-05-09 13:41:29 1184

原创 MongoDB数据库安装

官网下载官网链接下载即可，这里不做描述数据和日志文件个人建议这种文件放在d盘（目前下载过程会有提示，如下图；将目录c改成d）配置进入mongodb文件目录，命令提示符（直接将文件路径输入cmd即可，如下图）然后输入命令 mongod.exe --dbpath D:\MongoDB\data\db(此路径可自己设置) 将以后数据库保存在此文件夹中最后出现27017即为成功，日...

2019-05-08 18:14:14 146

转载 pycharm配置mongodb插件及可视化

@[TOC]转载(这里写自定义目录标题)遇到一个问题：pycharm插件连不了网

2019-05-08 11:16:44 1061

原创 scrapy爬虫学习日志[crawl框架爬取pexels图片]

文件生成1直接进入cd 【pycharm终端即可】scrapy.strstproject imagescd imagesscrapy genspider -t crawl pexels(爬虫主题文件名) pexels.com(网站名称)步骤设置注：scrapy框架内部提供两个 Item PipelineFilesPipeline 用于下载文件ImagePipeline 用于下载 ...

2019-05-05 12:55:56 327

NewDreamstyle的博客