![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
unikran2018
这个作者很懒,什么都没留下…
展开
-
随机显示文本文件中的一个词
#-*- coding: gbk -*-import sysimport randomsys.path.append("../")import jiebadef 随机显示文本文件中的一个词(inputFile): fin = open(inputFile, 'r') #以读的方式打开文件 allword=[] for eachLine in fin: line = eachLine.st...原创 2021-08-21 17:15:03 · 195 阅读 · 0 评论 -
jieba分词
#-*- coding: utf-8 -*-#code:myhaspl@qq.com#12-1.pyimport sysreload(sys)sys.setdefaultencoding("gbk")sys.path.append("../")import jiebadef splitSentence(inputFile, outputFile): fin = open(inputFile,...原创 2018-03-18 23:58:57 · 348 阅读 · 0 评论 -
python 对一篇文章,按逗号和句号分成一句一句的,然后在这篇文章中找到与某个句子类似的句子(包含相同的词),写入文件
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")#code:myhaspl@qq.com#12-4.pyimport numpy as npimport jiebaimport copyimport reimport mathdef get_cossimi(x,y): myx=np.array(x)...原创 2018-03-04 23:57:58 · 2390 阅读 · 0 评论 -
python 对一篇文章,按逗号和句号分成一句一句的,然后在这篇文章中找到与某个句子类似的句子(包含相同的词)
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")#code:myhaspl@qq.com#12-4.pyimport numpy as npimport jiebaimport copyimport redef get_cossimi(x,y): myx=np.array(x) myy=np....原创 2018-03-04 08:29:04 · 2406 阅读 · 0 评论 -
python 对一篇文章,按逗号分成一句一句的,然后在这篇文章中找到与某个句子类似的句子(包含相同的词)
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")#code:myhaspl@qq.com#12-4.pyimport numpy as npimport jiebaimport copydef get_cossimi(x,y): myx=np.array(x) myy=np.array(y) ...原创 2018-03-04 07:49:38 · 2038 阅读 · 0 评论 -
python 对一篇文章,按句号分成一句一句的,然后在这篇文章中找到与某个句子类似的句子(包含相同的词)
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")#code:myhaspl@qq.com#12-4.pyimport numpy as npimport jiebaimport copydef get_cossimi(x,y): myx=np.array(x) myy=np.array(y) ...原创 2018-03-03 23:25:24 · 5422 阅读 · 0 评论 -
python 编码错误
sys.setdefaultencoding('utf-8') data['sales'] = data.view_sales.apply(lambda x: x.split('人')[0]) sys.setdefaultencoding('gbk') ...原创 2018-03-03 08:33:09 · 257 阅读 · 0 评论 -
python 对一篇文章,按逗号和句号分成一句一句的,然后在这篇文章中找到句子之间类似的情况(包含相同的词),写入文件
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")#code:myhaspl@qq.com#12-4.pyimport numpy as npimport jiebaimport copyimport reimport mathdef get_cossimi(x,y): myx=np.array(x)...原创 2018-03-04 23:58:49 · 8014 阅读 · 0 评论 -
stopwords.txt
2010,?、。“”《》!,:;?.........。。。。。。。。。123457890下一页上一页人民末##末啊阿哎哎呀哎哟唉俺俺们按按照吧吧哒把罢了被本本着比比方比如鄙人彼彼此边别别的别说并并且不比不成不单不但不独不管不光不过不仅不拘不论不怕不然不如不特不惟不问不只朝朝着趁趁着乘冲除除此之外除非除了此此间此外从从而打待但但是当当着到得的的话等等等地第叮咚对对于多多少而而况而且而是而外而言而已尔...原创 2018-03-05 00:03:08 · 6503 阅读 · 0 评论 -
python 把一个文本文件中的语句分词, 并去重,然后写入一个CSV文件后,你可以排序
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")#import timeimport os,sys,reimport numpy as np #from math import isnanimport pandas as pd import jiebaimport jieba.analyse#import...原创 2018-02-28 09:15:56 · 2330 阅读 · 2 评论 -
python 根据关键词, 下载百度图片
# -*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')#在运行程序之前, 先在当前目录下建立一个 images 目录import reimport requestsdef dowmloadPic(html, keyword): pic_url = re.findall('"objURL":"(.*?)...原创 2018-02-28 09:16:26 · 610 阅读 · 0 评论 -
python 根据网优指标和工参,自动生成百度热力图
# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')html=""" 根据提取指标的csv, 先随便找一个基站csv来做实验,还是直接一步到位。 看一下胡工发的春节指标文件。注意春节数据与日常数据可能不同。 这一次暂时忽略: 对日期、各县、小区的处理 查找基站数据库,确定它的经纬度,基站名称, ...原创 2018-02-28 08:27:11 · 1711 阅读 · 1 评论 -
python 在屏幕上逐字显示 一行字
#-*- coding: utf-8 -*-#code:myhaspl@qq.com#12-1.pyimport sysreload(sys)sys.setdefaultencoding("gbk")import sys,timedef print_one_by_one(text): sys.stdout.write("\r " + " " * 60 + "\r") # /r 光标回到行首 ...原创 2018-02-27 23:52:57 · 10044 阅读 · 1 评论 -
python 把myinput.txt中的文字 分词,保存在myoutput.txt中,并制成图片
#-*- coding: utf-8 -*-#code:myhaspl@qq.com#12-1.pyimport sysreload(sys)sys.setdefaultencoding("gbk")sys.path.append("../")import jiebadef splitSentence(inputFile, outputFile): fin = open(inputFile,...原创 2018-02-27 23:47:12 · 557 阅读 · 0 评论 -
python 在某段文章中确定一段话中每个词出现的次数,并排序
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")import numpy as npimport jiebaimport jieba.analysemyList = [([""] *2) for i in range(400)]#如果下面的字符超过400个,就会报错,需要修改strzk3="""Deep ...原创 2018-02-27 23:26:03 · 7544 阅读 · 0 评论 -
python 切割pdf图片 一行行,再把一行切成一个个
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")#把一个pdf图片切成一行一行import cv2 # 1、读取图像,并把图像转换为灰度图像并显示 img = cv2.imread("612.png",1) # 读取图片,必须是1,如果是0,或者不写,报错 img_gray = cv2.cvt...原创 2018-02-27 22:58:43 · 3735 阅读 · 0 评论 -
python 生成表情包
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")import os import pygame from pygame.locals import * pygame.init() from PIL import Image, ImageDraw, ImageFontimg = Image.op...原创 2018-02-27 22:31:34 · 2973 阅读 · 0 评论 -
python 下载微信公众号文章,含图片,生成文本
#-*- coding:utf-8 -*-import sysreload(sys)#sys.setdefaultencoding("gbk")from re import findallimport requestsimport refrom urllib import urlopenfrom bs4 import BeautifulSoup def modifyip(tfile,sstr,rs...原创 2018-02-28 09:36:53 · 1848 阅读 · 0 评论 -
python 下载微信公众号文章,含图片,并对文本分词, 并 搜索某个词,然后替换为 粗体 红色
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")from re import findallimport requestsimport refrom urllib import urlopenfrom bs4 import BeautifulSoup def modifyip(tfile,sstr,rst...原创 2018-02-28 10:05:16 · 441 阅读 · 0 评论 -
用词库对文章进行切分,但是最后有很多分词也写在后面,怎么判断 文章 已经结束了呢?
# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')import pandas as pdimport stringdef cuttxt(fname,char): f=file(fname,'r') string=f.read() line1=string.split(char) f=file(fna...原创 2018-03-10 00:33:43 · 501 阅读 · 0 评论 -
python 下载微信公众号文章,含图片,分词,搜索所有分词
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")from re import findallimport requestsimport refrom urllib import urlopenfrom bs4 import BeautifulSoup def modifyip(tfile,sstr,rst...原创 2018-02-28 17:37:51 · 349 阅读 · 0 评论 -
python 下载微信公众号文章,含图片,并分词,还搜索分词
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")from re import findallimport requestsimport refrom urllib import urlopenfrom bs4 import BeautifulSoup def modifyip(tfile,sstr,rst...原创 2018-02-28 16:40:00 · 257 阅读 · 0 评论 -
python 下载微信公众号,含图片,并分词,同时搜索每个分词
#-*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("gbk")from re import findallimport requestsimport refrom urllib import urlopenfrom bs4 import BeautifulSoup def modifyip(tfile,sstr,rst...原创 2018-02-28 12:09:56 · 275 阅读 · 0 评论