- 博客(20)
- 资源 (24)
- 收藏
- 关注
原创 python中文乱码
关于中文乱码,老夫已经遇到无数次,遍寻良方,也使出无数种招数。总结一下,费话不多说,python中文乱码的根源只有一个,字符编码不统一!有的数据是爬来的,soup解析的,那很可能会出现ascii cannot decode error. OK,把语言环境它统一成utf-8码再说import sysreload(sys)sys.setdefaultencoding("utf-8")上述语句编译
2016-03-31 21:02:18 511
原创 python str转dict
两种方法捷径eval(str)>>> user = "{'name' : 'jim', 'sex' : 'male', 'age': 18}">>> type(user)<type 'str'>>>> b=eval(user)>>> >>> b{'age': 18, 'name': 'jim', 'sex': 'male'}>>> type(b)<type 'dict'>关于eval
2016-03-31 14:40:02 28510 4
原创 latex最简单的中文配置
less is more 最近弄latex,中文构建pdf时老是“!Critical ctex error: “fontset-unavailable””,ctex也装了,字体也有,可就是不行。解决方法:在最上头加上%!TEX program = xelatex这句,即可构建中文!%!TEX program = xelatex\documentclass{article}\usepackage
2016-03-29 08:25:26 3202 1
原创 洛克和休谟
休谟是18世纪英国著名的经验论哲学家,怀疑论者,是西方哲学史上最重要人物之一。作为一个伟大的哲学家,他从洛克、贝克莱的经验论出发,把经验主义的原则贯彻到底,建立了一个以怀疑论或不可知论为特征的经验论哲学体系。他的经验论和不可知论不仅影响了近代哲学,而且对现代西方哲学尤其是实证主义、使用主义、逻辑经验主义都产生了深远的影响。休谟曾说过,“太阳每天都从东方升起吗?”。根据休谟的哲学观念,太阳今天虽然已经
2016-03-26 22:42:07 2927
原创 洛克《人类理解论》
《人类理解论》第四卷十七章:谈谈理性第四卷的理性话题是基于前几卷的观念、知识来解释的。洛克在经验主义里大谈理性,其内容很值得玩味。首先是一段对理性的定义,洛克认为理性是人的本质,人 通过观念、知识等概念的含义来描述人的本质特征,在十七章里具体的阐述了理性的含义。接下来是理性的五种具体形式:推理、三段论法、推论、意见和论证。最 后洛克在此基础上把事物分成合乎理性、超乎理性、反乎理性,并由此引出“信仰与
2016-03-26 22:29:59 2591
原创 neo4j删除/查看(node/relationship)
和SQL一样,query大小写效果一样删除节点MATCH(n:City) DETACH DELETE n删除关系match (n)-[r:created]-() detach delete r查看节点MATCH(n:City) DETACH RETURN n查看关系match (n)-[r:created]-() RETURN r
2016-03-26 16:06:29 15062
原创 neo4j cypher语句
neo4j最简单的query语句模块包括三个部分:START/MATCH/RETURN用下面的语句寻找user=’michael’的朋友们:START a=node:user(name='Michael')MATCH (a)-[:KNOWS]->(b)-[:KNOWS]->(c), (a)-[:KNOWS]->(c)RETURN b, c
2016-03-25 13:00:35 2776
原创 维比特(vibiter)算法python
缘由再一次做分词,毫无疑问又用了jieba,但是结巴的语料库貌似很多没能与时俱进。比如一句话里的“大数据”,被硬生生分词为“大/数据”,再把“大”纳入stopwords的话,那句子就变了味咯。当然,一个简单办法是,找到jieba的dict, $sudo su$gedit dictctrl+f修改“大数据”的占比重,save即可。 想到李航《统计机器学习》里有维比特算法介绍,数学之美里也有一章略讲
2016-03-24 23:59:00 3302
原创 python迭代器与生成器
缘由最近欲一睹python源码,结果大跌眼镜,经常看到_ iter _这个玩意,无奈基础不行,遂遍寻解释。迭代器通俗的说,可在for语句循环的对象就是可迭代对象,就要用上面那玩意。我们平时看不到是因为它已被封装在我们平时常用的数据结构中了。当然,我们如果自己要创建一个这种容器也是可以的,这就是迭代器。下面介绍两种常用的迭代器方式。 使用_iter_()和next()方法内置函数iter将可
2016-03-22 19:40:27 247
原创 python中文乱码
python文本乱码的问题几乎确凿让我失去知觉了。以前出问题只要多尝试.encode(‘utf-8’)/decode()/str()/cha()/unicode(”,’utf-8’)/import uniout/…好像就可以了。但这几天这招频频出错,必须来捋一下这个问题的说。编码规则如何使用举栗子
2016-03-22 15:52:50 259
原创 DL的若干tricks
原文在这Must Know Tips/Tricks in Deep Neural Networks,我只是记录,以免忘记。。。拿CNN做图像举例1.尽可能的扩展数据集(Ng课上讲过如何空手把dataset扩展10倍的故事) 2.做好数据预处理(如图像whitening) 3.好的初始化参数 4.卷积核/学习速率调整 5.激活函数(主流还是relu) 6.规则化(大多还是用dropout)
2016-03-21 23:58:07 662
原创 选择支持向量机(SVM)核函数
SVM核函数通常有四种: 1. Linear 2. Polynomial 3. Gaussian (RBF) 4. Sigmoid/Logistic 不知为何,RBF最常用一般情况下,给定随意的数据集,你不知道该用什么样的核函数,通常先用简单的映射方式,然后再一步步的复杂化。如果数据集是线性可分的,用linear当然足够;如果数据集线性不可分,这个核函数就显然不行了
2016-03-21 19:16:25 13014
原创 智能维护系统的算法s
上文介绍方案,本文介绍算法。 先说明以下,因为IMS的的产品定位是打造通用级别较高的维护系统,所以使用了的算法是比较杂的,当然,最终还是需要用户在特定应用场景或业务逻辑中调整算法需求。 先放张图感受一下 上图表示,wA可以部署在不同的项目之上IMS的watchdog agent总体部署了四个方面1 信号处理+特征提取 2 性能评估算法 3 性能预测算法 4 性能诊断算法 如下图
2016-03-20 10:34:47 1138 1
原创 IMS(intellegent maintenance system)
设备诊断系统是先进制造业的重要研究方向。目前工业界(学术界)公认的top团队当属IMS,该项目由NSF支持,辛辛那提大学/密歇根大学/密苏里大学/德克萨斯大学出人。IMS的宗旨是,将F&F(fail and fix)理念变为P&P(predict and prevent)。 项目开工,起了一个高大上的名字——e-maintenance================================
2016-03-19 23:26:19 2851 1
原创 wordcloud
传单一律不得入内!ps好辛苦! 现在不用了,wordcloud 只需9快9pip install WordCloud现在你可能需要一张图和一个文本 from os import pathfrom PIL import Imageimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,
2016-03-19 18:11:42 561
原创 智能维护系统(IMS)
IMS is internationally recognized as the leader in predictive analytics and industrial big data modeling for life cycle performance of industrial systems. As the world pre-eminent NSF Industry/Univeri
2016-03-18 12:55:43 2248
原创 python把中文文档变为拼音
缘由新看到的一篇文章,被吓尿。Text Understanding from Scratch,认为word的cnn抽象能力还不够好,使用character来做cnn效果更佳。结果是,由于论文的使用的数据集里test和train有隐含的重叠,作者一度撤稿。但是不妨碍这一思路的进展。由此扩展到中文内容理解,但是中文的单个汉子已经是最小个体了啊。莫温台!把汉字转成拼音再训练character的卷积。
2016-03-17 17:53:05 11498 2
原创 Cnki数据集包装清洗
包装决定先处理好数据集训练形式等问题再清洗拿B/C/D/E/F/G/H举例,B包含10*1000篇,C包含7*1000篇,D包含10*1000篇,E:5*100,F:9*1000,G:6*1000,H:7*1000各类训练比例不均匀清洗标题,关键词,摘要融合——-data大类分类号————————label找出stop words sets,去除剔除数字字母和标点清洗过程中发现了些很
2016-03-14 15:33:34 654
原创 中文期刊分类(blog版)
中文期刊分类1.选题意义2.项目目标3.reference4.模型5.整体方案选题意义期刊论文本数量增长迅速,人工分类耗费精力某个实验表明,相同的人在不同时间段对同一批文献分类;不同的人对同一批文献分类,得到的结果发现相差较大,是因为人的主观性和知识结构的变迁会影响分类结果。机器分类不会存在此问题。项目目标建立合理的CNKI数据集 样本地址 项目地址对中图法分类的22个大类
2016-03-08 18:50:52 3904
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人