如锡如璧
码龄11年
关注
提问 私信
  • 博客:89,716
    社区:201
    89,917
    总访问量
  • 32
    原创
  • 922,922
    排名
  • 32
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:挪威
  • 加入CSDN时间: 2014-03-30
博客简介:

如锡如璧

博客描述:
记录自己,帮助别人
查看详细资料
个人成就
  • 获得24次点赞
  • 内容获得42次评论
  • 获得155次收藏
创作历程
  • 4篇
    2019年
  • 6篇
    2018年
  • 1篇
    2017年
  • 22篇
    2015年
成就勋章
TA的专栏
  • 算法
    5篇
  • lucene
    10篇
  • hadoop
    3篇
  • 随便聊
    4篇
  • elasticsearch
    1篇
  • python 爬虫
    2篇
  • 数据处理
    4篇
  • python datetime
    1篇
  • R programming
    5篇
  • machine learning
    3篇
  • Data science Essentials
    4篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Make your model a web service (using Microsoft Azure machine learning studio)

Make your model a web service (using Microsoft Azure machine learning studio)1. construct an experiment using the studio.2. Set up the web service.Run this experiment firstly and then click the bu...
原创
发布博客 2019.01.21 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Visualizing Data via R (box-plot,histogram,scatter)

Visualizing Data via R (box-plot,histogram,violin,scatter)load datalibrary("AzureML")ws = workspace()auto.price = download.datasets(ws, "Automobile price data (Raw)")## Coerce some character col...
原创
发布博客 2019.01.16 ·
370 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hypothesis with R and Understanding of P-value and confidence-interval

Hypothesis with R and Understanding of P-value and confidence-intervalHypothesis with R数据集说明数据可视化使用t-test(small samples)进行双边假设检验Hypothesis with R数据集说明基于Galton数据集,检验儿子和女儿与母亲身高的相关性library("AzureML")...
原创
发布博客 2019.01.16 ·
604 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

WSDM presentation

发布资源 2019.01.14 ·
pdf

Statistic summary in R

summary the statistics of data visualize the statistics (boxplot and histogram) view the data library("AzureML")ws <- workspace()dat <- download.datasets(ws, "Automobile price da...
原创
发布博客 2019.01.02 ·
669 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

基于doc2vec的中文文本聚类及去重

Understand doc2vecData introductionTrain a modelTest the modelCluster all the lyricsFilter out the duplicates1. Understand doc2vec [1]doc2vec是基于word2vec演化而来,其本质是要学出文档的一个表示,模型由谷歌科学家Quoc Le 和 T...
原创
发布博客 2018.12.24 ·
6770 阅读 ·
6 点赞 ·
2 评论 ·
30 收藏

基于doc2vec的中文文本聚类及去重

Understand doc2vecData introductionTrain a modelTest the modelCluster all the lyricsFilter out the duplicates1. Understand doc2vec [1]doc2vec是基于word2vec演化而来,其本质是要学出文档的一个表示,模型由谷歌科学家Quoc Le 和 T...
原创
发布博客 2018.12.24 ·
6770 阅读 ·
6 点赞 ·
2 评论 ·
30 收藏

R programming for feature selection and regression

data introductionSelect packagesSplit datasetfeature selectiontune parametersprediciton1. data introduction我的数据包含一千五百多条样例,92个属性,待预测项目有性别这样的分类问题,也有年龄这样的回归问题。2. select packageslibrary(ggplot2...
原创
发布博客 2018.12.24 ·
778 阅读 ·
0 点赞 ·
2 评论 ·
8 收藏

R语言创作词云 word cloud generation

目录1. select packages2. clean text3. generate word cloud4. 一个小技巧 a little trick1. Select packageslibrary("tm") #text mininglibrary("SnowballC") #word stemming if necessarylibrary(&am
原创
发布博客 2018.12.24 ·
585 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

计算perplexity确定LDA到底聚出多少个主题合适

-perplexity介绍-LDA确定主题的数目perplexity在对文本的主题特征进行研究时,我们往往要指定LDA生成的主题的数目,而一般的解决方法是使用perplexity来计算,原理如下(概率分布perplexity):其中,M是测试语料库的大小,Nd是第d篇文本大小(即单词个数) 其中z是主题,w是文档,gamma是训练集学出来的文本-主题分布 所以p...
原创
发布博客 2018.05.06 ·
24953 阅读 ·
9 点赞 ·
37 评论 ·
95 收藏

python进行时间数据处理

用页面解析的方式从twitter爬下来的帖子时间有时候是中文的,如下: 由于时间处理的细节很多,所以在这里做一个小结,首先要明白处理的目标数据应该是24小时制,并且形式如下format = "%Y-%m-%d %H:%M:%S"也就是要将字符串转换为datetime.datetime类型 代码如下:from datetime import datetimeformat =...
原创
发布博客 2018.05.06 ·
3947 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

根据地理位置和关键词爬取twitter数据并生成词云

根据地理位置和关键词爬取twitter数据存入MongoDB并生成词云转载注明出处tweepy获取数据生成词云tweepy获取数据1. 建立model model.pyclass twitter_post(Document): _id = ObjectIdField(primary_key = True) screen_name = St...
原创
发布博客 2018.05.01 ·
6310 阅读 ·
0 点赞 ·
1 评论 ·
16 收藏

Elasticsearch使用总结

Elasticsearch从索引到查询创建索引分词查询高亮分页排序创建索引第一步,创建索引`if self.es.indices.exists(index='test-index') is not True: self.es.indices.create(index='test-index',body=self._index_mappings)
原创
发布博客 2017.04.24 ·
690 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据中心那么大,怎么建的?

迪安智酷 | 研究出品 研究结论: 1. 数据中心规模与公司线上业务量呈现正相关; 2. 数据中心基础设施建设,整体追求高质量、生态友好,其中花旗集团和ACT均拿到LEED白金级认证; 3. 数据中心基础设施交付方式呈现多样化,但是总体技术方向偏向于高架交付,同时地理等自然因素也成为交付方式选择需要考虑的关键点; 4. 大多数数据中心建造用时普遍偏长,侧面反映施工难度和质量要求,多
原创
发布博客 2015.09.29 ·
999 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据中心那么大,怎么建的?

迪安智酷| 研究出品研究结论:数据中心规模与公司线上业务量呈现正相关;数据中心基础设施建设,整体追求高质量、生态友好,其中花旗集团和ACT均拿到LEED白金级认证;数据中心基础设施交付方式呈现多样化,但是总体技术方向偏向于高架交付,同时地理等自然因素也成为交付方式选择需要考虑的关键点;大多数数据中心建造用时普遍偏长,侧面反映施工难
原创
发布博客 2015.09.29 ·
950 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python Version 2.7 required which was not found in the registry 问题解决

今天在安装numpy时,出现了Python Version 2.7 required which was not found in the registry错误,解决方案如下。 Python的一些第三方库只到注册表的HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\Python\PythonCore\2.7\InstallPath路径下寻找Python
转载
发布博客 2015.08.15 ·
1676 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

大数据在火电厂中的技术

经过一周时间的学习,现在将我对于这个领域技术和问题的一些认识进行总结:概述:智能电厂的总体架构:右边是对智能电厂的整体体系结构的一个展示,左边则是我们需要做的大数据方向的工作,其实智能电厂就是将大数据的一系列技术应用到传统电厂,当然其中也涉及了物联网技术以及网络通信技术等。从查阅资料的实际情况来看,这确实是一个比较新的领域,国外在scopus中的论文以及IEEE数据库的会议文档谈论最多的是面向智能
原创
发布博客 2015.07.02 ·
5101 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

浅谈大数据与智能电厂

浅谈大数据与智能电厂 ——2015\6\12 前段时间,IBM刚刚宣布了一项新技术HyRef,用于能源电力行业,该技术结合大数据分析和天气建模,旨在提高可再生能源的可靠性;钢铁集团济钢公司也后脚使用IBM的Con
原创
发布博客 2015.06.12 ·
6471 阅读 ·
2 点赞 ·
0 评论 ·
11 收藏

Prim算法与Dijkstra的异同

prim算法和Dijkstra算法都是图论或者离散数学里面的典型算法,由于两者在实现策略上有很多相似之处,现做以比较: 同: (1)、两者都属于贪心算法的应用; (2)、都使用了堆结构; (3)、都有松弛操作; 异: (1)、给一堆村子之间修路,保证花费最小,用prim算法; 从一个村子到其他所有村子修路,并且希望花费最小,用Dijkstra。 (2)、prim适用于无相连通图;Di
原创
发布博客 2015.05.19 ·
2364 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Lucene学习之高亮显示

在搜索引擎中我们经常会看到这样的情景: 红色部分我们称之为高亮显示,lucene提供了HighLighter模块来实现这一功能。 高亮显示模块通常包含两个独立的功能,首先是动态拆分,就是从匹配搜索的大量文本中选取一小部分句子。第二个内容就是高亮显示。 我们先来看下高亮显示的原理: 一、TokenSources:IndexReader reader = DirectoryReader.op
原创
发布博客 2015.05.19 ·
3913 阅读 ·
2 点赞 ·
0 评论 ·
8 收藏
加载更多