python
文章平均质量分 76
冰糖少女
人生苦短,我爱python
展开
-
[pyspark入门]Dataframe groupby分组后统计词频WordCount的几种写法
每次写spark分组统计词频总要先到网上抄代码[捂脸],索性在这里做个总结和记录,也为需要的小伙伴提供参考wordcount在分布式当中的地位,大概跟初学编程语言时的hello world差不多。Pyspark基础 wordcount.py在此不再赘述了,有需要请参考:WordCount入门问题已知一个dataframe,想按照某字段/某列(column)分组后,再对各分组中某String类型的字段统计词频,这里默认已经分好词,直接split即可。那么,与入门wordcount唯一的区别也就找到.原创 2021-10-12 18:39:31 · 2082 阅读 · 0 评论 -
【sklearn】利用scikit-learn训练经典分类模型(算法原理与实现)
本文意图将机器学习中常用的分类器进行总结,从原理到sklearn实现进行统一梳理,宝宝们把本文作为入门读物也好,复习提纲也好,各取所需就好。原创 2018-07-21 17:29:49 · 9692 阅读 · 0 评论 -
【python网络爬虫与NLP系列】一、利用scrapy+redis实现新闻网站增量爬取
写在前头:为了督促自己完成2018上半年的个人小任务,决定在平台上记录和分享完成的过程和心得。时间有限,但尽量详细具体吧。 简述一下整个系列的任务:(1)精选几个自己感兴趣的外文网站;(2)利用scrapy+redis框架实现几个网站的定时增量爬取;(3)定时基于自定义规则的新闻筛选;(4)文本预处理,并利用机器翻译模型对新闻进行翻译(5)定时对筛选后的新闻进行拼装整合(自然语言),加...原创 2018-07-21 16:12:44 · 2651 阅读 · 1 评论 -
vim+tmux+conda常用配置完全记录,打造熟悉的python编程环境
好记性不如烂笔头,为了省去换服务器可能出现编辑环境的麻烦,决定把vim及tmux常用配置记录一下,方便编辑&运行环境的迁移。vim常用配置配置vim纯粹是为了服务器上调试python的方便。下面的配置是我在网上各种大神那里抄过来以及自己按照使用习惯补充的。服务器上vi ~/.vimrc,然后将下面的代码粘贴进去就可以了~" File: _vimrcset noc...原创 2018-07-20 15:42:51 · 4538 阅读 · 0 评论 -
【python】【Memory leak】urllib2, request内存泄露问题解决方案
提到python,很多人的第一直觉大概就是爬虫和网络相关。然而最近使用python2.7 urllib2和request的时候却无意中发现可能存在严重的内存泄漏问题,或者说垃圾回收有问题。stackoverflow了一下,确实有很多人反应了相关的问题,至今还没解决。综合了各种解决方案,最终确定了一种临时的替代方案,在此记录和分享。问题介绍 & 重现用过python进行大量网...原创 2018-06-05 13:53:48 · 6212 阅读 · 1 评论 -
Jupyter常用快捷键与常用功能 - mac篇
Jupyter是利用网页编辑、测试python,并生成嵌入式代码的优秀编辑器,通常在安装anaconda集成包时就会直接安装。用浏览器即可访问并编写测试python代码,十分便捷。 本文主要为了记录Jupyter一些常用的快捷键和常用功能,以便大家查询。 熟悉vim编辑器的开发者应该都知道命令模式和编辑模式,jupyter同样继承了这两种模式。1)编辑模式,允许你往单元中键入代码...原创 2018-05-11 12:21:13 · 6433 阅读 · 0 评论 -
【sklearn】利用sklearn训练LDA主题模型及调参详解
sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口,还提供了很多常用语言模型的接口,LDA主题模型就是其中之一。本文除了介绍LDA模型的基本参数、调用训练以外,还将提供两种LDA调参的可行策略,供大家参考讨论。考虑到篇幅,本文将略去LDA原理证明部分。原创 2017-07-31 15:50:22 · 67585 阅读 · 40 评论 -
Spyder Ipython Console卡在Connecting to kernel的解决方案
打开spyder后,ipython console一直卡在Connecting to,连不上,没办法run,有时还会出现“程序无法响应” 查看internal console发现如上报错。网上解决办法 stackoverflow上传授的经验是Reset syder settings,如图。然鹅,并没有什么用。还有人说要conda install Spyder重装Spyder,纳尼!于是我尝试了百试不厌的方案…原创 2017-07-27 11:08:13 · 22879 阅读 · 8 评论 -
语言模型系列之N-Gram、NPLM及Word2vec
上一篇博客简单梳理了NLP的技术架构、NLP语言模型的演化,以及最基本的语言模型Bag-of-Word词袋模型及基于词袋模型的重要模型和算法。本文将继续探讨NLP中重要的语言模型N-Gram语言模型,并探究其变形NPLM、CBOW及衍生物Word2vec。原创 2017-05-23 17:44:47 · 14697 阅读 · 3 评论 -
Windows+Anaconda2环境下安装测试basemap
解决了Anaconda自带的mlp_toolkits没有basemap的问题,from mpl_toolkits.basemap import Basemap时,出现了如下报错:No module named 'mpl_toolkits.basemap'的解决方案原创 2017-07-21 16:39:32 · 2084 阅读 · 0 评论 -
常用统计学回归模型应用场景与python实现方法
在信息管理、数据科学或fintech等研究中,有时会遇到统计学回归模型,那么这些基本统计回归模型的使用场景是什么?该如何用python快捷的实现统计回归呢?原创 2017-05-09 18:43:31 · 6622 阅读 · 0 评论 -
python IDE - Spyder常用快捷键
总结python轻巧IDE Spyder的一些常用快键键,便于查询~原创 2017-04-05 14:51:56 · 22692 阅读 · 0 评论