冰糖少女-CSDN博客

原创 vim+tmux+conda常用配置完全记录，打造熟悉的python编程环境

好记性不如烂笔头，为了省去换服务器可能出现编辑环境的麻烦，决定把vim及tmux常用配置记录一下，方便编辑&运行环境的迁移。vim常用配置配置vim纯粹是为了服务器上调试python的方便。下面的配置是我在网上各种大神那里抄过来以及自己按照使用习惯补充的。服务器上vi ~/.vimrc，然后将下面的代码粘贴进去就可以了～" File: _vimrcset noc...

2018-07-20 15:42:51 4818

原创【sklearn】利用sklearn训练LDA主题模型及调参详解

sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口，还提供了很多常用语言模型的接口，LDA主题模型就是其中之一。本文除了介绍LDA模型的基本参数、调用训练以外，还将提供两种LDA调参的可行策略，供大家参考讨论。考虑到篇幅，本文将略去LDA原理证明部分。

2017-07-31 15:50:22 72523 40

原创 [pyspark入门]Dataframe groupby分组后统计词频WordCount的几种写法

每次写spark分组统计词频总要先到网上抄代码[捂脸]，索性在这里做个总结和记录，也为需要的小伙伴提供参考wordcount在分布式当中的地位，大概跟初学编程语言时的hello world差不多。Pyspark基础 wordcount.py在此不再赘述了，有需要请参考：WordCount入门问题已知一个dataframe，想按照某字段/某列(column)分组后，再对各分组中某String类型的字段统计词频，这里默认已经分好词，直接split即可。那么，与入门wordcount唯一的区别也就找到.

2021-10-12 18:39:31 2384

原创【AAAI-2019】论文速读——交通领域

本文选读了AAAI-19上几篇交通领域的论文，同时附上论文相关链接、代码解读等便于查找。持续更新中…Revisiting Spatial-Temporal Similarity: A Deep Learning Framework for Traffic Prediction– github链接：https://github.com/tangxianfeng/STDN– 由于大规模交通数...

2019-03-12 16:54:13 9144 5

原创【AAAI-2019】论文整理（清单）

AAAI-19 Accepted Papers – Main Technical Track整理自：AAAI官网，分类整理持续更新…详细文章可从arXiz.org下载– CircConv: A Structured Convolution with Low ComplexitySiyu Liao ()*; Bo Yuan (Rutgers University)– Deep Sing...

2019-03-12 15:56:24 44339 4

原创【sklearn】利用scikit-learn训练经典分类模型（算法原理与实现）

本文意图将机器学习中常用的分类器进行总结，从原理到sklearn实现进行统一梳理，宝宝们把本文作为入门读物也好，复习提纲也好，各取所需就好。

2018-07-21 17:29:49 12365

原创【python网络爬虫与NLP系列】一、利用scrapy+redis实现新闻网站增量爬取

写在前头：为了督促自己完成2018上半年的个人小任务，决定在平台上记录和分享完成的过程和心得。时间有限，但尽量详细具体吧。简述一下整个系列的任务：（1）精选几个自己感兴趣的外文网站；（2）利用scrapy+redis框架实现几个网站的定时增量爬取；（3）定时基于自定义规则的新闻筛选；（4）文本预处理，并利用机器翻译模型对新闻进行翻译（5）定时对筛选后的新闻进行拼装整合（自然语言），加...

2018-07-21 16:12:44 3023 1

原创【python】【Memory leak】urllib2, request内存泄露问题解决方案

提到python，很多人的第一直觉大概就是爬虫和网络相关。然而最近使用python2.7 urllib2和request的时候却无意中发现可能存在严重的内存泄漏问题，或者说垃圾回收有问题。stackoverflow了一下，确实有很多人反应了相关的问题，至今还没解决。综合了各种解决方案，最终确定了一种临时的替代方案，在此记录和分享。问题介绍 &amp;amp;amp; 重现用过python进行大量网...

2018-06-05 13:53:48 6762 1

原创 Jupyter常用快捷键与常用功能 - mac篇

Jupyter是利用网页编辑、测试python，并生成嵌入式代码的优秀编辑器，通常在安装anaconda集成包时就会直接安装。用浏览器即可访问并编写测试python代码，十分便捷。本文主要为了记录Jupyter一些常用的快捷键和常用功能，以便大家查询。熟悉vim编辑器的开发者应该都知道命令模式和编辑模式，jupyter同样继承了这两种模式。1）编辑模式，允许你往单元中键入代码...

2018-05-11 12:21:13 6969

原创 Spyder Ipython Console卡在Connecting to kernel的解决方案

打开spyder后，ipython console一直卡在Connecting to，连不上，没办法run,有时还会出现“程序无法响应” 查看internal console发现如上报错。网上解决办法 stackoverflow上传授的经验是Reset syder settings,如图。然鹅，并没有什么用。还有人说要conda install Spyder重装Spyder，纳尼！于是我尝试了百试不厌的方案…

2017-07-27 11:08:13 23846 2

原创 Windows+Anaconda2环境下安装测试basemap

解决了Anaconda自带的mlp_toolkits没有basemap的问题，from mpl_toolkits.basemap import Basemap时，出现了如下报错：No module named 'mpl_toolkits.basemap'的解决方案

2017-07-21 16:39:32 2245

原创语言模型系列之N-Gram、NPLM及Word2vec

上一篇博客简单梳理了NLP的技术架构、NLP语言模型的演化，以及最基本的语言模型Bag-of-Word词袋模型及基于词袋模型的重要模型和算法。本文将继续探讨NLP中重要的语言模型N-Gram语言模型，并探究其变形NPLM、CBOW及衍生物Word2vec。

2017-05-23 17:44:47 15203 2

原创 NLP中的语言模型及文本特征提取算法

本文以基本语言模型为逻辑主线，漫谈NLP中两个核心问题，即文本表示（Text Representation）与文本特征提取（Feature Engineering）。通过本文你会发现，NLP的一部分经典算法以及目前的发展都能够通过文本表示串联在一起，有个基本的结构脉络。当然，NLP大牛们正在不断地探索NLP更多的维度，本文只是提供了一种切入的角度，也仅代表个人观点，如有任何错误还希望大牛们指教。

2017-05-23 16:50:48 17937

原创常用统计学回归模型应用场景与python实现方法

在信息管理、数据科学或fintech等研究中，有时会遇到统计学回归模型，那么这些基本统计回归模型的使用场景是什么？该如何用python快捷的实现统计回归呢？

2017-05-09 18:43:31 7315

原创 python IDE - Spyder常用快捷键

总结python轻巧IDE Spyder的一些常用快键键，便于查询~

2017-04-05 14:51:56 23014

CHM帮助文档汇总

帮助文档大汇总 w3school:W3School 是因特网上最大的 WEB 开发者资源，是完全免费的，是非营利性的，一直在升级和更新，是 W3C 中国社区成员，致力于推广 W3C 标准技术. 包括html、js、asp、php、ado、css、sql……等等需要的web开发技术

2014-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人