数据处理
看穿数据之美
机器学习/深度学习/数据挖掘/推荐算法,微信为oppo62258801(同13011197941),邮箱为lcqbit11@163.com,欢迎学习交流!
展开
-
hive中的排序操作 Sort/Distribute/Cluster/Order By
Hive中常见的排序操作有order by, sort by, distribute by, cluster by,下面一一介绍。1.order by在hive中如果需要对全部数据进行排序,可以使用order by操作,此时所有的数据都会分配到同一个Reducer处理。但是如果数据量太大的话,有可能会导致一个Reducer应付不过来。select userid, age, sa...原创 2019-10-30 23:31:22 · 1903 阅读 · 0 评论 -
NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing...
~~因为不太会使用OpenCV、matlab工具,所以在找一些比较简单的工具。 . .一、NLP标注工具BRATBRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。以下是利用该工具进行命名实体识别任务的标注例子。 WeTest舆情团转载 2017-04-12 20:50:51 · 6368 阅读 · 0 评论 -
深度学习python图像标记工具labelTool
深度学习训练需要标记图像位置和类别,之前用的时候是叫做BBox-Label-Tool-master,遇到大图像就显示不完整了,没有自适应缩放, 这是改进后的Python脚本。目录结构:图片目录名images, 标签目录名labels,图像目录下各类别目录名要以001,002,003,...的格式命名。这是运行labelTool ( python main.py)时的转载 2017-04-12 20:52:04 · 1179 阅读 · 0 评论 -
图片标注工具LabelImg使用教程
项目地址:LabelImg前言我们知道,图片标注主要是用来创建自己的数据集,方便进行深度学习训练。本篇博客将推荐一款十分好用的图片标注工具LabelImg,重点介绍其安装以及使用的过程。在此感谢原作者在github所做的贡献,博主发现软件一直在更新,各位小伙伴可以关注其最新版本。这款工具是全图形界面,用Python和Qt写的,最牛的是其标注信息可以直接转化成为XML文件,与转载 2017-04-23 17:24:34 · 6450 阅读 · 1 评论 -
Hive 的collect_set使用详解
有这么一需求,在Hive中求出一个数据表中在某天内首次登陆的人;可以借助collect_set来处理sql:[html] view plain copy print?select count(a.id) from (select id,collect_set(time) as t from t_action_login where t转载 2017-07-03 17:03:06 · 9881 阅读 · 1 评论 -
Hive、Hbase、mysql区别
Hive和HBase的区别Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟转载 2017-08-06 13:38:05 · 1133 阅读 · 0 评论 -
mac下的Graphviz安装及使用
一.安装 Graphviz http://www.graphviz.org/ mac用户建议直接用homebrew来安装,官网上版本比较旧1.安装homebrew 打开终端复制、粘贴以下命令:ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"12.安...转载 2018-07-17 14:39:12 · 4051 阅读 · 0 评论