自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 python自己实现朴素贝叶斯分类模型

import numpy as npx = [['happy','new','year','every','day','sunny',], ['sunny','happy','slow','great','cool'], ['sad','bad','no'], ['sad','hard','worry'], ['happy','love','warm',...

2019-08-07 19:53:57 783 1

原创 python自己实现K近邻算法

# -*- coding:utf-8 -*-# /usr/bin/pythonimport numpy as npclass kNeighberHood(): # weight1: object # def __init__(self,n=1,weight='uniform'): self.n1 = n self.weight1 =...

2019-08-07 19:52:33 246

原创 python自己实现PCA降维

# -*- coding:utf-8 -*-# /usr/bin/pythonimport numpy as npx = np.array([[1,2,3],[2,3,4],[1,2,5],[1,5,6],[2,5,7],[1,7,2],[4,1,1]])x_mean = np.mean(x,axis=0)#取均值x_nor = x-x_mean#计算协方差x_cov = np....

2019-08-07 19:50:42 669

原创 房价回归分析用svr(高斯核)、随机森林、决策树手段模拟非线性回归预测

房价回归分析用svr(高斯核)和随机森林 决策树手段模拟非线性结果之前用线性回归的方法做了链家网房价的预测https://blog.csdn.net/weixin_41044499/article/details/945913561 爬取链家网房源数据https://blog.csdn.net/weixin_41044499/article/details/94382662得...

2019-07-31 14:17:38 2615

原创 pca 因子分析 lda tsne做数据降维效果比较

用鸢尾花的4维数据,尝试不同的降维方式,观察变为两维数据后的效果#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.decomposition i...

2019-07-28 11:02:24 692

原创 鸢尾花数据 用gridSearch做模型K近邻 svm 决策树 randomforest adaboost参数调优的练习

gridSearch做参数调优的练习 将K近邻 svm 决策树 randomforest adaboost模型的优化全都放进来代码实现参考了这篇文章 https://blog.csdn.net/weixin_41171061/article/details/83859856比较各种组合下分类效果最好的一个方案用鸢尾花数据#!/usr/bin/python# -*- coding...

2019-07-28 09:41:41 699

原创 比较不同的聚类方法分析聚类效果:kmeans 密度距离 层次聚类 谱聚类 meanshift affinitypropogation

用sklearn.datasets as ds.make_blobs(N, n_features=2, centers=3, cluster_std=(1, 2.5, 1), random_state=2)创造三个方差不同聚类的数据,对数据旋转为更不规则的效果。# 普通二维矩阵 对数据进行旋转和拉伸操作m = np.array(((1, 1), (1, 3)))data_r = da...

2019-07-27 16:52:02 2196

原创 SVD和Kmeans做 《贝加尔湖畔》图片特征抽取压缩的比较

本样例比较kmeans和svd做图像压缩后的图片效果原图如下:代码如下:#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npimport osfrom PIL import Imageimport matplotlib.pyplot as pltimport matplotlib as mplfrom...

2019-07-26 22:51:46 220

原创 mapreduce练习:小说《我的前半生》文本信息统计分词统计业务,集群执行任务

mapreduce练习 集群执行任务参考之前的朴素贝叶斯新闻分类练习https://blog.csdn.net/weixin_41044499/article/details/94591422精确统计不同主题下的分词的频率对朴素贝叶斯新闻的分类非常重要。这里借助mapreduce的练习,离线统计任务实现大量数据的词频统计,可以用于后续文本做朴素贝叶斯统计。加载IKAnalyzer...

2019-07-21 23:25:26 259

原创 大数据平台spark linearregresion处理房价预测

https://blog.csdn.net/weixin_41044499/article/details/94591356之前的练习采用了sklearn的线性回归的包from sklearn.linear_model import LinearRegression但不太适合大数据的平台操作,这里借助spark ml 大数据的平台实现房价预测。用scala编写spark 程序,分布...

2019-07-21 20:48:57 649

原创 beautifulsoup爬取百度新闻 朴素贝叶斯实现新闻类型分类(三)

beautifulsoup爬取百度新闻,方法参见之前的方案https://blog.csdn.net/weixin_41044499/article/details/94382539整理如下:将新闻预语料做结巴分词,skilearn的feature_extration方法将每个词向量化,放入朴素贝叶斯模型进行训练,观察军事、汽车、娱乐三类文本的分类效果,之前的准确率为0.87...

2019-07-17 13:54:52 228

原创 图像风格转换练习

图像风格转换练习原理参考这篇文章https://blog.csdn.net/stdcoutzyx/article/details/53771471代码下载地址:https://github.com/titu1994/Neural-Style-Transfer这里采用配置输出的图像名称及迭代次数,将某一个图片,按照风格转换后输出风格效果图片:这里采用了imagene...

2019-07-15 10:02:16 271 1

原创 tensorboard练习:添加name_scope,显示视图graph,scalar,hisgram

tensorboard练习参考了这篇文章的内容https://www.cnblogs.com/fydeblog/p/7429344.html,汇总几个常用的技巧:1添加name_scope:为了便于graph图中能清晰的显示每个块的结构,建议在适当的位置添加自定义名称,可以在name_scope中嵌套name_scope从而清晰显示层级关系。2 保存graph的方法, wirte...

2019-07-15 09:58:38 393

原创 迁移学习实现验证码预测

之前借助简单搭建的cnn模型执行验证码的分类任务训练,https://blog.csdn.net/weixin_41044499/article/details/94382397,由于缺乏训练多层神经网络的设备和条件,准确率并不高。这里通过借助vgg19的模型来抽取验证码图片的特征,再增加一个全连接层,做简单的分类问题。相比多种调取现有cnn模型的方案,使用keras的vgg16直接操作的方式...

2019-07-15 09:50:04 447

转载 flume数据抽取汇总案例

A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求:把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为:/source/logs/access/20160101/**/source/logs/nginx/20160101/*...

2019-07-14 16:57:52 296

原创 sqoop操作练习

sqoop作用是hdfs和mysql、oralce间数据的导入和导出。在mapreduce中,计算的结果会写入output对应的hdfs路径中。运用hive操作进行数据统计后存入创建的结果表中,有些也需要导出到mysql库中供web页面访问。sqoop在这里就起到了数据传输的作用。题外话,如果使用sparkSQL进行数据计算,sparkSession则可以直接read hdfs或者hive表中...

2019-07-13 13:00:23 141

原创 hdfs hive sparkSQL 结合处理离线日志统计任务

先用python模拟一些日志数据:# !/usr/bin/python# -*- coding:utf-8 -*-import random# remote_addr# remote_user# time# request# status 200 400# agentremote='222.68.172.'+str(random.randint(0,15))remote_...

2019-07-13 11:55:50 343

原创 爬取链家网房源信息 线性回归做房价预测(二)

1 爬取链家网房源数据https://blog.csdn.net/weixin_41044499/article/details/94382662得到的数据格式如下:2 将所有的特征进行处理,转化为多个特征。调用skilearn的linear-regression方法,做房价的线性回归的训练和预测,# !/usr/bin/python# -*- coding:utf-8 -...

2019-07-05 15:40:11 1709

原创 beautifulsoup爬取不同类百度新闻 LDA尝试做新闻类型分类

1beautifulsoup爬取不同类百度新闻的方法,参见如下链接https://blog.csdn.net/weixin_41044499/article/details/94382539beautifulsoup爬取百度新闻,方法参见之前的方案https://blog.csdn.net/weixin_41044499/article/details/94382539整理如下:...

2019-07-04 22:01:38 600

原创 beautifulsoup爬取百度新闻 朴素贝叶斯实现新闻类型分类(二)

beautifulsoup爬取百度新闻,方法参见之前的方案https://blog.csdn.net/weixin_41044499/article/details/94382539整理如下:将新闻预语料做结巴分词,skilearn的feature_extration方法将每个词向量化,放入朴素贝叶斯模型进行训练,观察军事、汽车、娱乐三类文本的分类效果# !/usr/bi...

2019-07-04 21:51:22 258

原创 keras图像识别入门练习:cnn识别字母图像(一)

创建字母图像用于识别:from PIL import Image, ImageDraw, ImageFont, ImageFilterimport randomdef getChar(): return chr(random.randint(65, 90))def getColor2(): return (random.randint(32, 200), rand...

2019-07-03 16:14:01 2962

原创 爬取链家网房源信息 线性回归做房价预测(一)

爬取链家网房源信息:1 选择天津市的红桥区二手房信息 https://tj.lianjia.com/ershoufang/hongqiao/mw1dp1sf1。F12获取界面信息,查找所需房源信息对应的页面标签位置2 按照30页的分页,爬取所有的房源信息,借助pandas写入excel表格中# !/usr/bin/python# -*- coding:utf-8 -*-impo...

2019-07-03 15:23:35 1643 4

原创 beautifulsoup爬取百度新闻 朴素贝叶斯实现新闻类型分类(一)

beautifulsoup爬取百度新闻1 首先需要观察你要爬取的目标网站的页面结构,点击F12,从chrome开发者工具里能看到html对应的body,再往里面点击查看所需内容对应的标签:点击百度新闻,你会发现不同类型的新闻,被划分为不同的路径:如:娱乐新闻http://news.baidu.com/ent;体育新闻http://news.baidu.com/sports。借助python...

2019-07-02 10:43:34 950

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除