大数据
技术修行
人生如梦,技术无边,愿做行僧,修得真谛。
展开
-
谷歌AVA数据库的1705.08421论文(5)
5.试验5.1.试验准备 在Table1看到的,AVA数据集中的追加的素材,标签的分布大体上遵从齐夫定律(Zipf)。自从在很小量的测试集上评估认为可能是不可靠,我们只有用那些有至少25测试实例的类别,来检测动作定位的表现。我们的检测基准设定为由44个动作类别组成,这些类别适合要求,且每个类别有90个训练实例的最小个数。我们随机选择训练数据的10%作为确认系列,用他们调整模型的翻译 2017-11-07 21:29:00 · 501 阅读 · 0 评论 -
2018 研究报告
中国人工智能发展报告2018.pdf2018中国互联网+指数报告.pdf2018-04-12_人工智能行业应用价值报告.pdf2018自然语言处理-研究报告-nlp.pdf 2018部分研究报告,可参考使用。...原创 2018-07-30 21:53:28 · 544 阅读 · 0 评论 -
大数据 电子书免费下载
机器学习实战.pdf 大数据技术基础.pdf Scala编程完整版.pdf 此次先分享 这3本。原创 2019-02-22 22:24:03 · 2319 阅读 · 2 评论 -
大数据 编程提升
Scala编程中文版[tag]Scala,编程,RDD,Spark,数据挖掘,机器学习,算法,[content]本书帮助读者能够全面了解和掌握Scala编程语言的核心特性,并能够深入理解Scala语言。[下载]https://u17749188.pipipan.com/fs/17749188-357508458Objective-C_中文[tag]Objective-C,面向对象...原创 2019-03-30 14:24:53 · 429 阅读 · 0 评论 -
知识图谱的neo4j使用版本的问题
neo4j使用的版本有社区版,企业版,区别的介绍。从功能的角度这两者在功能上没有本质区别。主要区别是如下几点:1、容量:社区版最多支持 320 亿个节点、320 亿个关系和 640 亿个属性,而企业版没有这个限制;2、并发:社区版只能部署成单实例,不能做集群。而企业版可以部署成高可用集群或因果集群,从而可以解决高并发量的问题;3、容灾:由于企业版支持集群,部分实例出故障不会影响整...原创 2019-03-24 14:24:13 · 4734 阅读 · 0 评论 -
高层次语义特征检测:行人检测
高层次语义特征检测:行人检测此代码未发布,待发布后验证下。依赖;Python 2.7Tensorflow 1.4.1Keras 2.0.6OpenCV 3.4.1.15安装:pip install -r requirements.txt数据下载:下载后放到./data/下。其中./data/caltech目录下结构如下*DATA_PATH*train...翻译 2019-04-13 22:26:21 · 763 阅读 · 0 评论 -
几篇人工智能/思考的书籍
机器之心[tag]机器学习,虚拟现实,量子计算,数据分析,电脑芯片,人造器官,[content]量子计算将引爆技术未来。机器不仅拥有智能,而且拥有心灵,将具有人类的意识、情绪和欲望。人类身体中植入了用生物工程和纳米材料制成的电脑芯片、人造器官,将比现代人类更长寿(甚至长生不老),有更强的学习能力,更灵敏的视觉和听觉。虚拟现实有可能使人机发生“恋爱”。[link]https://u17749...原创 2019-04-18 21:25:27 · 5760 阅读 · 2 评论 -
python 爬虫列表
Python爬虫开源项目代码,爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等 代码整理转自https://www.cnblogs.com/liuyanpeng93/p/7710719.html整理了32个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快1、WechatSogou [1]– 微信公众号爬...转载 2019-04-18 22:15:31 · 851 阅读 · 0 评论 -
大数据 书籍
深入浅出数据分析(中文版).pdf大数据分析的案例、方法与挑战-11.pdfR数据分析——方法与案例详解(双色).pdf原创 2018-07-13 09:13:09 · 1298 阅读 · 1 评论 -
蚂蚁金服金融大脑的挑战赛的实现代码 NLP文本相似度计算
近期做了一些NLP的研究,并基于6月份蚂蚁金服金融大脑的挑战赛,完成了文本相似度计算的验证。主要思路是基于word2vec来进行训练,并实现文本相似度的计算。所使用的语料,包括了公开的wiki语料,网友收集的微信语料,以及此大赛中的语料。其中微信语料的位置在https://spaces.ac.cn/archives/4304(可参考)。注意,此次语料训练采用了增量训练的方式。整体的代码位置在,ht...原创 2018-07-09 15:12:36 · 5097 阅读 · 2 评论 -
组归一化(Group Normalization)的解释
看了网上最新的一些文章,来解释组归一化(Group Normalization)。发现百家号的如下文章,解释的比较清晰。大家可去学习参考。文章标题是“全面解读Group Normalization”,网址如下http://baijiahao.baidu.com/s?id=1596620335120928574&wfr=spider&for=pc现把主要信息列举出来,便于今后学习。G...转载 2018-04-23 20:35:58 · 21765 阅读 · 2 评论 -
谷歌AVA数据库的1705.08421论文(2)
接续上节:2. 关联工作 大部分受欢迎的动作识别数据集,如KTH [31], Weizmann [4], Hollywood-2 [22], HMDB[21] and UCF101 [33],由短的剪辑组成,手工整理获得一个单独的动作。理论上这些数据集是合适,对训练全监督,整个剪辑,强制选择优先级来说。遗憾的是,尽管实用,这动作识别的构想是完全不切实际,真实世界翻译 2017-10-31 16:06:20 · 588 阅读 · 0 评论 -
谷歌AVA数据库的1705.08421论文(3)
3. 数据收集 AVA数据集的产生管道包含3个阶段:电影和片段选择,人的矩形框标记,动作标记。3.1.电影和片段选择 AVA数据集的未加工的视频内容,来自YouTube。我们通过收集不同国籍的高水平演员列表就开始了。对每个名字我们发布了一个YouTube搜索问询,收到了2000个结果。我们仅仅收集带“film”或“television”主题注释的翻译 2017-11-05 11:50:10 · 793 阅读 · 0 评论 -
谷歌AVA数据库的1705.08421论文(4)
4. AVA数据集的特性 我们通过讨论数据的类型与分布开始分析,展示注释的高质量。之后我们研究感兴趣的动作,和时间结构,这使此数据集真正的独一无二。然后我们讨论这些特性,其使数据集具有挑战性,尤其对动作检测任务。 首先,建立直觉的一些样本。每个样本被推荐为来自片段的3帧:带矩形框的中间帧圈住表演动作的人,在中间帧之前的0.5s的那一帧,在中间帧翻译 2017-11-06 16:56:16 · 425 阅读 · 0 评论 -
物体检测 DSOD论文 1708.01241的翻译 (2)
论文的第4章,翻译理解如下。4.实践我们在普遍使用的PASCALVOC 2007, 2012和MSCOCO数据集(各自有20多万个对象类别)上实施了试验。对象检测性能是用mAP(平均精度均值)衡量的。4.1.基于PASCALVOC2007的消融研究首先我们调查DSOD框架的每个组件和设计原则。结论主要总结在Table2和Table3里了。我们为了这个消融研究在PASCALV原创 2017-12-11 15:29:16 · 715 阅读 · 0 评论 -
python下wordpdf转换总结
近期涉及到了关于doc文档读取的处理,也查了很久,为了便于大家使用,故集大成一下。Doc文档读取有如下几种:1、从doc读取文本 目前没有找到直接的方式,一般是先转为docx文件在处理。所使用工具为doc2doc(批量时可用),或人工另存处理。 2、从docx读取文本 一般使用python-docx库的方法,但只支持创建新文档和读取一些基本的文件数据,如文件大小和文件标...原创 2018-02-26 17:23:07 · 1977 阅读 · 0 评论 -
open3d的例程2
KDTreeOpen3D使用FLANN来快速创建KDTrees。#src/Python/Tutorial/Basic/kdtree.py import sysimport numpy as npsys.path.append("../..")from py3d import * if __name__ =="__main__": print("Testing kdtree in py3d....翻译 2018-03-03 13:35:28 · 3590 阅读 · 0 评论 -
tesseract-ocr的完整安装及使用
在感兴趣的图像中文字识别处理上,个人发现一些教程都不完整。需要东找西找才能拼凑出来。故此次梳理了下windows上安装完整记录,在应用上是采用python编程。 首先前提下载相关packages。包括有tesseract-ocr的windows安装版(tesseract-ocr-setup-3.05.01),Pillow、pytesseract。还有tesseract-ocr的中文字体chi_...原创 2018-03-11 10:16:53 · 12671 阅读 · 1 评论 -
python下wordpdf转换总结
python下wordpdf转换总结 近期涉及到了关于doc文档读取的处理,也查了很久,为了便于大家使用,故集大成一下。Doc文档读取有如下几种:1、从doc读取文本 目前没有找到直接的方式,一般是先转为docx文件在处理。所使用工具为doc2doc(批量时可用),或人工另存处理。 还有可以用antiword(依赖linux环境),使用“./antiword” + doc文件名即可读取文件...原创 2018-03-30 09:56:29 · 850 阅读 · 0 评论 -
大数据 电子书
大数据的冲击完整版[tag]大数据,人工智能,机器学习,数据分析,数据挖掘,企业案例,[content]介绍了什么是大数据,支撑大数据的技术,相关企业案例,大数据的运用模式。[link]https://u17749188.pipipan.com/fs/17749188-355855710大数据营销[tag]大数据,人工智能,数据营销,数据分析,数据挖掘,统计学,IT技术,[conte...原创 2019-04-20 14:31:10 · 1205 阅读 · 0 评论