杨秀璋的专栏

无知 · 乐观 · 谦逊 · 低调 · 生活

[python] 安装numpy+scipy+matlotlib+scikit-learn及问题解决

这篇文章主要讲述Python如何安装Numpy、Scipy、Matlotlib、Scikit-learn等库的过程及遇到的问题解决方法。最近安装这个真是一把泪啊,各种不兼容问题和报错,希望文章对你有所帮助吧!你可能遇到的问题包括:        ImportError: No module nam...

2015-12-17 22:22:16

阅读数:13400

评论数:12

[python] 使用Jieba工具中文分词及文本聚类概念

这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的...

2015-12-11 02:38:17

阅读数:38781

评论数:22

[python] 专题八.多线程编程之thread和threading

这篇文章主要是参考Wesley J. Chun的《Python核心编程(第二版)》书籍多线程部分,并结合我以前的一些实例进行简单分析。主要包括线程基础知识、thread模块、threading模块,及三个方法代码: (1) 创建一个Thread的实例,传给它一个函数;(2) 创建一个Thread...

2015-12-09 05:04:43

阅读数:18241

评论数:7

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固Selenium自动化操作和urllib库等知识,感谢朋友"露为霜...

2015-12-07 06:25:10

阅读数:9904

评论数:0

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息

本文主要是自己的在线代码笔记,在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE(生物医学数据库),其核心主题为医学,但亦包括其他与医学相关的...

2015-12-06 03:42:55

阅读数:8171

评论数:4

提示
确定要删除当前文章?
取消 删除
关闭
关闭