【学习笔记】Python系列
文章平均质量分 70
Sidney_VonWunderland
学习~
展开
-
【python学习笔记】web文本抓取时用到的模块盘点
在制作网络爬虫、进行文本分析时,用到的模块原创 2015-03-29 13:44:38 · 701 阅读 · 0 评论 -
【python学习笔记】运算符、表达式
【表达式】学过C/C++,就很容易类比得出Python的表达式了:算术运算符:一级、二级运算+, -, *, /, //, **, ~, %移位>>, 二进制运算&, |, ^比较运算:>, =(~, |, ^, &, >必须应用于整数)逻辑运算:得出的是true false值and, or, not( #不是&& || !() 哦~)对象的比较:对象相原创 2015-03-12 14:04:56 · 527 阅读 · 0 评论 -
【pyhton学习笔记】历数那些遇到的错误
制作python爬虫时遇到的错误原创 2015-03-29 13:41:54 · 1731 阅读 · 0 评论 -
【python学习笔记】自动抓取雅虎新闻的内容
在雅虎新闻(http://news.yahoo.com/)搜索,过滤掉来源自雅虎新闻的新闻,提取在html源代码中包含的新闻正文,采用计算文段密度并提取最长文段为正文。对文本进行清洗,去除html标记、无用字段等垃圾,存成txt。再去除无效、过短等不符合质量要求的新闻,存在的问题是一旦有http报错,就会终止程序,极大影响效率。#coding:utf-8import reimport原创 2015-03-12 14:46:48 · 3494 阅读 · 0 评论 -
【python学习笔记】网络爬虫的完整源代码
实现功能:在百度新闻(http://news.baidu.com/)搜索关键词“中国 美国”,通过url判断,取前120条新闻,并过滤不重复来源的、有效链接新闻。提取新闻文本:提取在html源代码中包含的新闻正文,采用计算文段密度并提取最长文段为正文。对文本进行清洗,去除html标记、无用字段等垃圾,存成txt。注:本代码借鉴了:http://blog.csdn.net/a8572785/原创 2015-03-12 14:07:21 · 3766 阅读 · 0 评论 -
【python学习笔记】学习目的、资料汇总
【目的】为了做网络爬虫,在百度上搜索新闻,并记录在txt内,学习python。【入门】了解python:文件:保存,文本文档 .py运行: 终端运行, python name.py注释:# “”“ ”“”函数:def function():print 'function'库、模块导入: import urllib2变量:无明显类型区别原创 2015-03-12 13:40:41 · 966 阅读 · 0 评论