科研小站
码龄7年
关注
提问 私信
  • 博客:36,265
    社区:1
    36,266
    总访问量
  • 9
    原创
  • 1,152,444
    排名
  • 5
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河北省
  • 加入CSDN时间: 2017-10-18
博客简介:

Frank330的博客

查看详细资料
个人成就
  • 获得22次点赞
  • 内容获得2次评论
  • 获得240次收藏
  • 代码片获得183次分享
创作历程
  • 1篇
    2021年
  • 8篇
    2020年
成就勋章
兴趣领域 设置
  • 人工智能
    pytorch
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

机器学习中数据预处理的几种方法

由于实际收集到的机器学习数据集不可避免的会存在数据缺、数据集不平衡和数据集中各类数据非同一量级等情况,对缺失数据进行补全和对异常数据进行清洗、均衡化处理防止类别不平衡和数据标准化处理对于机器学习模型至关重要。1数据补全方法 有效地恢复缺失的数据是进行机器学习建模的重要前期准备工作。一方面可使得数据更完整,便于后续进一步的分析研究,另一方面,数据补全本身就是对信息进行挖掘的一种方式。 常见的数据补全方法包括均值补全、回归填补法、期望最大化填补法、高斯混合模型(Ga...
原创
发布博客 2021.08.28 ·
5484 阅读 ·
1 点赞 ·
0 评论 ·
30 收藏

将同一文件夹内的所有txt文件内容合并到一个txt中

# -*- coding:utf-8*-import osimport os.pathimport timetime1=time.time()##########################合并同一个文件夹下多个txt################def MergeTxt(filepath,outfile): k = open(filepath+outfile, 'a+',encoding='utf8',) for parent, dirnames, filenames in .
原创
发布博客 2020.10.16 ·
1888 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

csv转numpy

import csvimport numpy as npcsv_file = open('iris.csv')csv_reader_lines = csv.reader(csv_file)data = []n = 0for one_line in csv_reader_lines: data.append(one_line) n = n+1np.save('iris.npy',data)a = np.load('ilda_clu.npy')print(a)prin.
原创
发布博客 2020.06.01 ·
1492 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

python 画支持向量机分类图(svm)

import numpy as npimport pylab as pl #画图用from sklearn import svmimport matplotlib.pyplot as pltfrom sklearn import svmnp.random.seed(0)X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]Y = [0] * 20 + [1] * 20# fit the .
原创
发布博客 2020.06.01 ·
6759 阅读 ·
8 点赞 ·
0 评论 ·
42 收藏

python 批量修改图片名字(可改后缀)

import os# 存放图片的目录path = r"C:\Users\great\Desktop\111\\"# 获取该目录下所有文件,存入列表中fileList = os.listdir(path)n = 0for i in fileList: # 设置旧文件名(就是路径+文件名) oldname = path + os.sep + fileList[n] # os.sep添加系统分隔符 # 设置新文件名 newname = path + os.sep.
原创
发布博客 2020.06.01 ·
573 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

六种常用的文本聚类算法介绍

文本聚类算法介绍分类和聚类都是文本挖掘中常使用的方法,他们的目的都是将相似度高的对象归类,不同点在于分类是采用监督学习,分类算法按照已经定义好的类别来识别一篇文本,而聚类是将若干文本进行相似度比较,最后将相似度高的归为一类。在分类算法中,训练集为已经标注好的数据集,但是微博文本具有的大数据特性及不确定性决定了标注数据的难度,因此本文选择聚类算法对大量且随机的微博文本进行处理。大量文本建模后还需要对主题分布进行聚类以得到更精确简洁的话题,因此文本聚类在话题检测技术中具有重要意义。聚类是一种无监督学习方
原创
发布博客 2020.05.17 ·
10979 阅读 ·
9 点赞 ·
0 评论 ·
82 收藏

4种常用的文本表示模型

原创
发布博客 2020.05.17 ·
3180 阅读 ·
1 点赞 ·
0 评论 ·
14 收藏

Word2vec工作原理

1 词向量人类的语言在计算机中是无法直接被识别的,只能换算成二进制代码组成的机器语言计算机才能识别,并对其进行相关操作。因此要实现对语言文本的处理,首要条件就是对文本建立模型以使得机器能够识别处理。1986年,Hinton首次提出了分布式表达(Distributed Representation,DR)概念,简称词向量(Word Embedding)[30]。词向量是将大量的文本集中进行训练并统计,之后将文本组成的语料库中的每个词映射在一个向量空间上,这个向量空间通常都是凝聚度较高、维度较低的具有实际.
原创
发布博客 2020.05.17 ·
1154 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

完整实现利用keras训练自己的图片数据集

本实验可以实现使用卷积神经网络对自己的数据集(图片)进行训练并得出训练时的准确率与loss图,并利用测试集得到混淆矩阵、ROC曲线图和AUC。编程环境为python3.7.4代码文件结构如下:Dataset文件夹用来存放数据集Log文件夹用来存放准确率和loss曲线图Model文件夹用来存放训练好的卷积神经网络模型,训练好后以后使用可以直接调用模型,不必每次都训练Main为主程序Dataset文件夹里面有训练集train和测试集test两个文件夹,train文件夹数据用来训练
原创
发布博客 2020.04.12 ·
4754 阅读 ·
3 点赞 ·
2 评论 ·
36 收藏

csv文件转npy文件

发布资源 2019.01.23 ·
py

批量修改图片大小与改RBG为灰度

发布资源 2018.07.19 ·
py

基于tensorflow的手写体识别代码

发布资源 2018.07.17 ·
py

一级直线倒立摆的LQR控制

发布资源 2018.07.02 ·
zip

白噪声及有色噪声序列的产生

发布资源 2018.06.01 ·
m

基于Bang-Bang原理的时间最优控制问题求解

发布资源 2018.05.26 ·
pdf

一阶直线倒立摆线性化及固有特性分析

发布资源 2018.05.18 ·
docx

布冯投针实验MATLAB代码

发布资源 2018.04.04 ·
m
加载更多