自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 利用bert进行文本分类

1、任务及数据集描述 实现利用bert预训练模型进行中文新闻分类,使用的数据集情况: 其中,train.txt, dev.txt, test.txt内容格式为每一行为“内容 Tab 标签”: class.txt内容为10类的新闻标签,如上面的0就代表finance这一类。 2、bert模型准...

2020-01-13 17:51:11

阅读数 52

评论数 0

原创 利用sklearn 计算 precision、recall、F1 score

精确度:precision,正确预测为正的,占全部预测为正的比例,TP / (TP+FP) 召回率:recall,正确预测为正的,占全部实际为正的比例,TP / (TP+FN) F1-score:精确率和召回率的调和平均数,2 * precision*recall / (precision+rec...

2019-11-25 14:54:52

阅读数 24

评论数 0

原创 利用yolov3 进行目标检测(可自定义检测的类别)

1、修改yolo.cfg文件 将其中的classes修改为1,所有的filters=255的值修改为filters=18(计算方式为(classes+5)*3),filters仅仅是Yolo层前的filters修改为18 2、将coco_class.txt和voc_class.txt文件中的类别全...

2019-07-09 23:28:33

阅读数 2366

评论数 3

原创 Windows 10系统在Anaconda下安装GPU版Pytorch

在此之前默认Anaconda,CUDA, cuDNN 已安装好了。CUDA, cuDNN 下载对应版本安装。 我的环境为:win10+Anaconda+python3.6+cuda10.0 1、打开anaconda prompt 命令行输入:conda create --name pytorch...

2019-06-26 23:22:46

阅读数 3771

评论数 6

原创 csv文件导入到neo4j数据库

1、停止neo4j服务:neo4j stop 2、导入csv数据 使用的数据如http://neo4j.com/docs/stable/re03.html,包含节点文件movies、actors和关系文件roles,创建三个excel文件,分别命名为movies.xlsx、actors.xls...

2019-01-02 22:46:31

阅读数 1887

评论数 3

原创 利用vgg预训练模型提取图像特征

VGG卷积神经网络是牛津大学在2014年提出来的模型。当这个模型被提出时,由于它的简洁性和实用性,马上成为了当时最流行的卷积神经网络模型。它在图像分类和目标检测任务中都表现出非常好的结果。在2014年的ILSVRC比赛中,VGG 在Top-5中取得了92.3%的正确率。有VGG16和VGG19,模...

2018-10-28 14:30:02

阅读数 14371

评论数 24

原创 往github上push源码出错:! [rejected]... error: failed to push some ref to 'https://...'

在往github上push代码时,步骤: (1) git init (2) git add . (3) git commit -m “first commit” (“git commit -m “提交信息””) (4) git remote add origin https://github.c...

2018-10-28 13:14:33

阅读数 131

评论数 0

原创 利用wiki数据训练英文Doc2vec模型

1、语料库准备 从此处下载英文维基百科数据,是xml压缩包的形式,下载文件,以enwiki-latest-pages-articles1.xml-p10p30302.bz2为例: 由于是压缩包,所以需要进行预处理,变成文本的形式。在cmd下切换到这个压缩包文件存放的目录下,运行命令: python...

2018-10-28 00:35:19

阅读数 1633

评论数 4

原创 python2.x代码转化为python3.x

python官方提供了python2自动转化为python3的方法,利用2to3.py文件,位置为python安装目录下的Tools\scripts文件夹下,我安装的是anaconda ,所以我的目录是Anaconda3\Tools\scripts,具体操作如下: (1) 在Windows 的cm...

2018-10-26 23:50:07

阅读数 921

评论数 0

原创 日常代码报错:python KeyError:b'Variable'

import scipy.io as sio data = scipy.io.loadmat('D:/myproject/flickr8k/flickr8k/vgg_feats.mat') print(data)

2018-10-26 23:37:26

阅读数 1526

评论数 0

原创 使用tensorflow构建电影推荐系统

1、搜集数据集 https://grouplens.org/datasets/movielens/ 2、准备数据 import pandas as pd import numpy as np import tensorflow as tf ratings_df = pd.read_csv...

2018-08-08 15:36:30

阅读数 1997

评论数 0

原创 推荐系统的性能评估

1、线下评估 均方分误差 ( RMSE, Root Mean Square Error ) RMSE越小,表示误差越小,推荐系统的性能越好。 平均绝对误差 (MAE,Mean Absolute Error) recall recall = 0.6 F1 sc...

2018-08-08 14:40:32

阅读数 829

评论数 0

原创 推荐系统的基本原理

基于内容的推荐系统 根据每部电影的内容以及用户已经评过分的电影来判断每个用户对每部电影的喜好程度,从而预测每个用户对没有看过的电影的评分。 电影内容矩阵X * 用户喜好矩阵θ = 电影评分表 那么,用户喜好矩阵θ(用户对于每种不同类型电影的喜好程度)如何求解呢? 用户喜好矩阵θ的代...

2018-08-08 10:09:24

阅读数 825

评论数 1

原创 Python数据操作—词干与词形化

1、词干化 在自然语言处理领域,我们i经常会遇到两个或两个以上单词具有共同根源的情况。 例如,agreed, agreeing 和 agreeable这三个词具有相同的词根。 涉及任何这些词的搜索应该把它们当作是根词的同一个词。 因此将所有单词链接到它们的词根变得非常重要。在NLTK库中有一些方...

2018-08-06 22:44:10

阅读数 1305

评论数 0

原创 Python数据操作—单词标记化

单词标记是将大量文本样本分解为单词的过程。 这是自然语言处理任务中的一项要求,每个单词需要被捕获并进行进一步的分析,如对特定情感进行分类和计数等。自然语言工具包(NLTK)是用于实现这一目的的库。 在继续使用python程序进行字词标记之前,先安装NLTK。 命令:conda install -...

2018-07-30 22:51:29

阅读数 333

评论数 0

原创 Python数据操作—处理非结构数据

已经以行和列格式存在的数据或者可以很容易地转换为行和列的数据,以便之后它可以很好地适合数据库,这被称为结构化数据。 例如CSV,TXT,XLS文件等。这些文件有一个分隔符,固定宽度或可变宽度,其中缺失值在分隔符之间表示为空白。 但有时候我们会得到一些行不是固定宽度的数据,或者它们只是HTML,图像...

2018-07-30 22:21:03

阅读数 333

评论数 0

原创 Python数据操作—处理Excel数据

Microsoft Excel是一个使用非常广泛的电子表格程序。 它的用户友好性和吸引人的功能使其成为数据科学中常用的工具。 Pandas库提供了一些功能,我们可以使用该功能完整地读取Excel文件,也可以只读取选定的一组数据。 还可以读取其中包含多个工作表的Excel文件。这里主要使用read_...

2018-07-29 23:43:19

阅读数 4590

评论数 0

原创 Python数据操作—处理Json数据

JSON文件以可读的格式将数据存储为文本。 JSON代表JavaScript Object Notation。 使用read_json函数,Pandas可以读取JSON文件。 输入数据 通过将以下数据复制到文本编辑器(如记事本)来创建JSON文件。选择文件类型作为所有文件(.),使用.json...

2018-07-29 22:30:34

阅读数 1119

评论数 0

原创 Python数据操作—处理CSV数据

从CSV读取数据(逗号分隔值)是数据科学的基本需求。 通常,我们从各种来源获取数据,这些数据可以导出为CSV格式,以便其他系统可以使用这些数据。 Pandas库提供了一些功能函数,我们可以使用该功能完整地读取CSV文件,也可以只读取选定的一组列和行。 CSV文件作为输入 csv文件是一个文本文...

2018-07-29 21:30:21

阅读数 4434

评论数 0

原创 Python数据操作—数据清理

数据丢失在现实生活中是一个问题。 机器学习和数据挖掘等领域由于数据缺失导致数据质量差,因此在模型预测的准确性方面面临严峻的问题。 在这些领域,缺失值处理是使模型更加准确和有效的关键。 什么情况下,以及什么时候数据会丢失? 让我们考虑一个产品的在线调查。 很多时候,人们不会分享与他们有关的所有信...

2018-07-29 19:58:47

阅读数 1413

评论数 0

原创 docker学习系列—windows下安装docker

一、windows安装docker的基本要求 (1) 64为操作系统,win7或者更高 (2) 支持“ Hardware Virtualization Technology”,并且,“virtualization ”可用 二、安装步骤 1、 进入Docker Toolbox的下载网...

2018-07-28 23:22:25

阅读数 373

评论数 0

原创 大数据学习框架及指南

Hadoop生态圈 一 ,采集,数据从哪里来?主要包括flume等; 一 ,存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka; 二,计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、storm等; 三,查询,海量数据怎样快速查询?主要为Nosql和Ola...

2018-07-28 14:40:40

阅读数 2960

评论数 2

原创 特征缩减技术(shrinkage): lasso和岭回归

1、概述通过对损失函数(即优化目标)加入惩罚项,使得训练求解参数过程中会考虑到系数的大小,通过设置缩减系数(惩罚系数),会使得影响较小的特征的系数衰减到0,只保留重要的特征。常用的缩减系数方法有lasso(L1正则化),岭回归(L2正则化)。 关于L1,L2正则化讲解:http://blog.c...

2017-12-08 21:44:56

阅读数 3358

评论数 0

原创 梯度下降算法与随机梯度下降

1、相关符号M 训练样本的数量 x 输入变量,又称特征 y 输出变量,又称目标 (x, y) 训练样本,对应监督学习的输入和输出 表示第i组的x 表示第i组的y h(x)表示对应算法的函数 θ是算法中的重要参数(向量) 表示参数为的函数,以下考虑线性回归,所以表述为:2、梯度下降算...

2017-11-26 13:10:48

阅读数 261

评论数 0

原创 Oracle之复杂查询

实例1:列出薪资高于在部门30工作的所有员工的薪资的员工姓名和薪资,部门名称,部门人数。 -emp 表:姓名,薪资,部门人数; -dept 表:部门名称;第一步:找出30部门的所有雇员的工资,返回多行单列; select sal from emp where deptno=30;第二步...

2017-10-29 19:00:31

阅读数 248

评论数 0

原创 Oracle分组统计查询-分组查询

【⑤确定要使用的数据列】SELECT [DISTINCT] 字段 [别名] 【①确定要查询的数据来源】FROM 【②针对数据进行的筛选】WHERE 过滤条件 【③针对数据实现分组】GROUP BY 分组字段,分组字段,… 【④针对分组后的数据进行筛选】HAVING 分组后的过滤条件 【⑥...

2017-10-29 15:37:12

阅读数 2607

评论数 0

原创 Oracle分组统计查询-统计函数

统计函数: 统计个数count(*|[distinct]字段); max(字段), min(字段); sum(数字字段), avg(数字字段);示例1:查询所有雇员的最高工资和最低工资。 select max(sal),min(sal) from emp; max(),min() 的操作...

2017-10-29 14:46:30

阅读数 275

评论数 0

原创 Oracle多表查询-数据集合操作

1、UION操作 select empno, ename, job, deptno from emp where deptno=10 union select empno, ename, job, deptno from emp; 将两个查询结果合并在了一起,相同的结果不重复显示。2、U...

2017-10-29 14:18:28

阅读数 765

评论数 0

原创 Oracle多表查询-基本概念

select * from emp,dept where emp.deptno=dept.deptno; 以上代码只是消除了显示的笛卡尔积,而在数据库的多表查询中,笛卡尔积就一直存在,

2017-10-22 22:58:45

阅读数 102

评论数 0

原创 Spark实现WordCount单词计数

spark连接到master:bin/spark-shell –master spark://master:7077连接成功。scala>sc.textFile(“hdfs://master:9000/root/data/input/data.txt”).flatMap(.split(” “...

2017-10-22 16:02:02

阅读数 791

评论数 0

原创 机器学习算法-k-means聚类算法

一、k-means原理 k-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集...

2017-10-21 21:05:53

阅读数 112

评论数 0

原创 机器学习算法-SVM

1、SVM原理 http://blog.csdn.net/alvine008/article/details/90971052、python实现#coding:gbk #coding:utf-8 ''' Created on 2016年6月5日@author: Ad...

2017-10-21 14:07:41

阅读数 142

评论数 0

原创 Spark伪分布式环境搭建

1、解压:tar -zxvf spark-2.1.0-bin-hadoop2.4.tgz -C ~/training/ conf/目录下: cp spark-env.sh.template spark-env.sh #重命名 cp ...

2017-10-16 13:51:55

阅读数 152

评论数 0

原创 Spark基础

1、什么是Spark? Spark是一个针对大规模数据处理的快速通用引擎。 类似MapReduce,都进行数据的处理2、Spark的特点: (1)基于Scala语言、Spark基于内存的计算 (2)快:基于内存 ...

2017-10-16 13:37:56

阅读数 149

评论数 0

原创 HDFS基本操作

一、HDFS的相关命令 -mkdir #在HDFS创建目录 hdfs dfs -mkdir /data -ls #查看当前目录 hdfs dfs -ls / -ls -R ...

2017-10-15 15:54:15

阅读数 465

评论数 0

原创 bootstrap, boosting, bagging,randomforrrest 几种方法的区别与联系

Bootstraping: 名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:   (1) 采用重抽样技术从原始...

2017-10-13 14:55:57

阅读数 97

评论数 0

原创 快速排序(python实现)

快速排序(Quicksort)是对冒泡排序的一种改进。它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。设要排序的数组是A[0]……...

2017-10-12 00:55:23

阅读数 331

评论数 0

原创 Hadoop2.x环境搭建3

安装hadoop: hadoop-2.7.3.tar.gz1、解压hadoop mkdir /usr/hadoop tar zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop/2、修改配置文件 #hadoop2.x的配置文件在/usr/hadoop/etc/had...

2017-10-06 14:49:35

阅读数 403

评论数 0

原创 Hadoop2.x环境搭建2

安装jdk(1) 上传jdk至linux(2) 解压jdk //创建文件夹 mkdir /usr/java //解压 tar zxvf jdk-8u11-linux-i586.tar.gz -C /usr/java/(3) 将java添加到环境变量中 vim ~/.bashrc 在文...

2017-10-04 18:39:55

阅读数 105

评论数 0

原创 oracle 之在查询中使用函数

1、在查询中使用字符函数 如:在员工信息表中查询出员工的生日 select substr(cardid, 7,8) from users;将部门号01全部替换成 ‘信息技术’ select replace(deptno, ‘01’, ‘信息技术’) from users;2、在查询中使用数值...

2017-10-01 00:46:22

阅读数 491

评论数 0

提示
确定要删除当前文章?
取消 删除