python
zcancandice
这个作者很懒,什么都没留下…
展开
-
Beautifulsoup使用 find_all()、select()从网页标签中提取子元素
例如先找到 class='info'的元素,继续在内部获取元素内的文字:p1=soup.find_all('p',class_='info') for each in p1: txtlist=each.find_all('span') for eachs in txtlist: txtstr=eachs.string或原创 2018-01-30 15:31:52 · 24068 阅读 · 3 评论 -
beutifulsoup find_all_next(limit=n)通过某标签定位紧邻的元素
在解析简历时,需要获取上一份工作的公司,思路是先定位’工作经验‘所在的标签,再找到工作经历下面的公司所在标签exp1=soup.select('span.title')for k in range(len(exp1)): if exp1[k].get_text()=='工作经验': exp2=exp1[k].find_all_next(limit=5)原创 2018-01-30 15:43:32 · 1980 阅读 · 0 评论 -
gensim word2vec把训练好的模型保存成txt
import gensimimport codecsfrom gensim.models import word2vecimport refrom gensim.corpora.dictionary import Dictionaryimport pickleimport loggingimport numpy as np# 引入日志配置logging.basicConfig...原创 2018-04-17 16:43:21 · 8882 阅读 · 5 评论 -
python 将两个向量合并为字典
#wordkey为键名称的列表 #wordvalue为键对应的值列表#使用dict()函数和zip()将两个列表合并为字典vecdict=dict(zip(wordkey, wordvalue))原创 2018-04-17 16:46:10 · 2100 阅读 · 0 评论 -
解决python 读中文文件时编码不正确的问题
path = "D:/tempData/sougou" #文件夹目录 files= os.listdir(path) #得到文件夹下的所有文件名称 new_line=[]for file in files: #遍历文件夹 if not os.path.isdir(file): #判断是否是文件夹,不是文件夹才打开 f1= codecs.open...原创 2018-05-28 14:49:43 · 1014 阅读 · 0 评论