python
cg_Amaz1ng
这个作者很懒,什么都没留下…
展开
-
Python爬虫抓取贴吧所有标题
这段代码用于获取指定贴吧下指定页数的所有标题。原代码不知道是使用哪位仁兄的,已经不记得了,稍微修改了下,请求超时时长为7s,并且把抓取到的文本保存到txt文档中。工作环境:python 2.7 操作系统:mac os完整代码如下:#!/usr/bin/env python#coding:utf-8import urllib2import reimport sysr原创 2017-12-23 10:14:15 · 2219 阅读 · 0 评论 -
TypeError: doc2bow expects an array of unicode tokens on input, not a single string
使用Gensim包下的corpora构造词典,报错: Traceback (most recent call last): File "D:\BaiduNetdiskDownload\sample.py", line 38, in <module> dictionary = corpora.Dictionary(allwords) File "D:\so...原创 2018-03-15 14:34:19 · 5640 阅读 · 4 评论 -
Python2如何将列表list的中文unicode转换为中文输出
#coding=utf-8import jsondef LoadQuestion(): f = open("test.json",'r') qas = json.load(f) question = qas['documents'] return question t = LoadQuestion()print str(t).dec...原创 2018-03-11 23:04:27 · 6607 阅读 · 1 评论 -
【Python】如何将generator转换为list
使用 list() 函数。举个例子:real_test_raw = ['第一段文字','这是第二段','第三段文字'] real_documents = [(jieba.cut(item_text,cut_all=False)) for item_text in real_test_raw]执行后,real_documents是一个generator的列表。为什么是列表?注意中括号[ ]...原创 2018-03-13 10:24:45 · 23763 阅读 · 3 评论 -
Selenium+PhantomJS 设置代理IP
#coding:utf-8from selenium import webdriverfrom bs4 import BeautifulSoupimport urllib2import reimport sysimport codecsimport jsonimport randomfrom time import sleepfrom selenium.webdriver.c...原创 2018-04-01 12:39:31 · 3385 阅读 · 2 评论 -
Python2.7 写入JSON文件,无法显示中文
json.dumps(example , ensure_ascii=False)加上红色代码,完美解决。原创 2018-03-28 15:11:33 · 887 阅读 · 0 评论 -
assert self.projection.u is not None, "decomposition not initialized yet"
使用gensim的LsiModel对,tfidf向量进行lsi化,代码是: corpus_lsi = model_lsi[corpus_tfidf] 当连续两次调用的时候,出现了这个断言报错,报错代码是lsimodel的 __getitem__ 方法于是查看gensim的lsimodel.py源文件: def __getitem__(self, bow, scale...原创 2018-04-28 17:17:16 · 1268 阅读 · 2 评论 -
“搜狗问问”问答语料爬虫
本人的毕业设计是构建一个基于机器学习的问答系统,需要用到大量的问题答案对,并且每个问题下都应有相应的分类标签。 鉴于网络上有分类标签的问答语料很少被人公开,本人亲自编写爬虫来抓取语料。 中文的问答网站有:百度知道、知乎、悟空问答、奇虎问答、搜狗问问等,通过筛选,最后我锁定“搜狗问问”网站。原因是:不具备反爬虫机制或者说连最基本的频繁次数限制都没有。每...原创 2018-06-02 20:54:48 · 2517 阅读 · 5 评论