Python语言学习
struggleee_luo
你当温柔,却有力量
展开
-
Python爬虫爬取百度搜索结果——邮箱地址
因为需要拿一些外部邮箱做测试,所以要获得一些真实的邮箱地址,我在百度上搜索"@xxxx.com.cn"(xxxx保密,哈哈)之后,得到大概1,700,000条结果。但我只需要一千个不重复的就够了,鼓捣了一下午终于搞定,直接贴上代码,具体说明都写在注释里。(另外我发现学会正则表达式真的特别重要,附上大神写的正则表达式学习指南:http://www.cnblogs.com/huxi/archive/2原创 2015-03-24 14:19:02 · 6200 阅读 · 2 评论 -
解决postgresql选择表名增加字段错误问题
解决postgresql选择表名增加字段错误问题表名:BOOKOMIT_OUTPUT_W Schemas:public 要向该表增加自增字段id,使用 alter table public.BOOKOMIT_OUTPUT_W ADD COLUMN id SERIAL primary key; 发现报错:ERROR: relation “public.bookomit_output_w” d原创 2016-09-23 11:01:38 · 2816 阅读 · 0 评论 -
在Mac terminal上安装scrapy过程报错及解决方法
使用pip install scrapy 下载scrapy很顺利,当下载lxml时出现src/lxml/includes/etree_defs.h:14:10: fatal error: 'libxml/xmlversion.h' file not found然后系统自动给出解决方法,搜索这个错误的时候stackoverflow也给出的是这个方法Could not find function xml原创 2016-08-25 20:04:00 · 1912 阅读 · 0 评论 -
Web Scraping with Python 学习笔记6
Chapter 6: Reading Documents 本章主要解决文档读取问题,是否需要你下载下来再读取还是直接读取从中抽取你需要的数据,同时讨论一下不同文档的编码格式。文本文档 如果能直接爬取文本文档那是最好不过了,但是现在的网页都是HTML,XML等格式的,需要我们进行有针对的转换,通常情况下,我们把html文档转为BeautifulSoup对象,然后根据标签(比原创 2015-12-19 13:17:52 · 1516 阅读 · 0 评论 -
Web Scraping with Python 学习笔记7
Chapter 7:Cleaning Your Dirty DataCleaning in Code 首先简单介绍一下N-Gram,N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。在做自然语言处理时,通常会根据句子中的固定搭配把句子划分为小片段,这里的固定搭配有2个词组成(2-gram)原创 2015-12-21 13:36:54 · 2959 阅读 · 0 评论 -
Web Scraping with Python 学习笔记8
Chapter 8:Reading and Writing Natural LanguagesSummarizing Data 自然语言处理这块有一项重要的内容就是文本摘要,本节涉及的只是去停用词,类似中文的“地,的,得”,英文中对应的“the,be,and”等等。大概有5000个高频词汇,这足够过滤掉很多无用的2-grams,下面展示的是前100个词汇:def isCommon(ng原创 2015-12-28 10:52:02 · 1495 阅读 · 1 评论 -
Web Scraping with Python 学习笔记9
Chapter 9: Crawling Through Forms and LoginsPython Requests Library 主要介绍Python Requests Library,它能处理更加复杂的HTTP requests, cookies, headers等等。Submitting a Basic Form 只需四行代码就可以完成一个简单的表单提交,下面是原创 2015-12-31 14:11:31 · 1483 阅读 · 0 评论 -
Mac下安装from matplotlib import pyplot或者 import matplotlib.pyplot as plt报错
>>>from matplotlib import pyplot Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Library/Python/2.7/site-packages/matplotlib/pyplot.py", line 34, in <module> f原创 2015-08-19 14:32:44 · 3677 阅读 · 0 评论 -
BeautifulSoup解析文档只有部分内容
首先建议参考: http://m.blog.csdn.net/blog/muzixiaozi/39960219 我的错误跟他十分相似,同样python2.7的环境,调用BeautifulSoup解析网页源代码,发现解析后的结果丢掉后了小半部分,只保留前半部分的内容。 BeautifulSoup4.4的官方文档,给出了一个代码诊断的功能: from bs4.diagnos原创 2015-08-31 21:50:13 · 3633 阅读 · 0 评论 -
python通过FTP方式从虚拟机服务器上下载文件
因业务需求,需要将几台虚拟机服务器上的特定文件夹下的日志集中到一台服务器上,参考前人工作直接写python脚本,先上代码:#!/usr/bin/python# -*- coding:utf-8 -*-'''Created on 2017年6月28日@author: Luoxun'''import osimport sysimport ftplibimport socket#desD原创 2017-07-05 11:42:20 · 2624 阅读 · 0 评论