日常问题
Happy丶lazy
这个作者很懒,什么都没留下…
展开
-
当列表中需要去掉包含的词语时
去掉列表中的重复词语原创 2022-10-08 18:23:57 · 257 阅读 · 0 评论 -
python利用字典归类列表
本代码的应用的场景是当需要将不同类型的重复文本进行归类,而且方便看某个列包含哪些文本。原创 2022-08-08 16:50:08 · 523 阅读 · 0 评论 -
pd、keras转onnx
pd 转onnx python -m tf2onnx.convert --saved-model ./saved_model.pb --opset 13 --output ./model.onnxkeras 转onnxonnx_model = keras2onnx.convert_keras(model, model.name)temp_model_file = 'model.onnx'onnx.save_model(onnx_model, temp_model_file)原创 2022-07-01 17:44:52 · 716 阅读 · 0 评论 -
tensorboard查看文件
Tensorboard使用原创 2022-06-14 16:45:19 · 1805 阅读 · 0 评论 -
python倒排索引
倒排索引一般用在你已经知道有些值,你想返回去去找到对应的关系就可以用这种方法,其实就是一个字典反过来查找def false_index(index_set): all_words = [] for i in index_set.values(): cut = i.split() all_words.extend(cut) # set_all_words = set(all_words) # 构建倒排索引 invert_index =原创 2022-05-25 10:47:15 · 2247 阅读 · 0 评论 -
estimator 模型保存与使用
1:estimator 是tensorflow的高级封装库,但是tensorflow 分为两个版本,1.X与2.X,本次文章两个版本都会说明,方便大家进行判断1.0保存与读取output_dir=’../outer‘def serving_input_fn(): label_ids = tf.placeholder(tf.int32, [None, max_seq_length], name='label_ids') input_ids = tf.placeholder(tf.int3原创 2022-04-02 16:06:25 · 2284 阅读 · 3 评论 -
命名实体识别数据集构建
命名实体有很多构建方式,这个代码是针对我所作的项目进行构建,方便我自己用,在使用中可以根据自己的方式进行修改,如有不懂可留言私信import pandas as pdcer_type = ['工程施工合同', '拍摄合作协议', '印刷合同', '加工协议书', '空调采购合同', '学校学购置大型宣传栏合同书', '绿化苗木采购种植合同', '车辆买卖合同', '借款协议', '购销合同', '政府采购合同', '健康教育采购合同书', '供货合同', 'KD07硬件设计、开原创 2022-03-16 09:57:10 · 3517 阅读 · 9 评论 -
keras_contrib安装
这个库主要运用在CRF中,keras调用,但是安装有点不容易,网上的教程一般是pip install git+https://www.github.com/keras-team/keras-contrib.git会出现超时等报错,所以我建议1:直接去官网https://github.com/keras-team/keras-contrib2:在你对应的环境中进行安装python setup.py install...原创 2022-03-15 11:19:18 · 5179 阅读 · 0 评论 -
人民币大小写转换
def convert_currency_to_float(self, text): """ 大写金额转小写金额 :param text: :return: """ for i in (("万万", "亿"), ("点", "元"), ("块", "元"), ("毛", "角"), (" ", '')): text = text.replace(i[0], i[1]) ...原创 2021-12-22 15:13:18 · 331 阅读 · 0 评论 -
git操作流程
建立git 仓库后执行如下命令以创建一个本地仓库的克隆版本git clone git地址将修改的文件添加到缓存区git add 全部提交为git add *为本次修改做说明解释git commit -m “代码提交信息”推送到远程仓库git push origin master...原创 2021-12-09 16:57:39 · 230 阅读 · 0 评论 -
梯度下降算法
梯度下降算法是机器学习基础算法,假如x是数据样本的特征,y是其目标值,我们需要通过计算,求解有个目标函数,最能拟合这个函数,我们就用最简单的线性函数进行拟合,hθ(x)=θ0+θ1∗xh_{\theta}(x) = \theta_{0} + \theta_{1} * xhθ(x)=θ0+θ1∗x,比如这个函数就是y=5+2∗xy=5+2*x y=5+2∗x,现在只要能通过x与y求解出θ0=5,θ1=2\theta_{0}=5,\theta_{1}=2θ0=5,θ1=2我们用代码进行解释下im原创 2021-11-09 10:59:22 · 1129 阅读 · 0 评论 -
pycharm退出测试环境
当建立一个py文件再运行时,有可能运行后进入测试环境,需要恢复到正常情况,这是测试环境状态现在需要退出将default test runner 修改为pytest原创 2021-11-02 11:39:03 · 825 阅读 · 0 评论 -
paddle 进行目标检测_猫狗猴的识别
最近参加文本分类的比赛,发现自己写的代码和paddle的结果差别还是很大的,我的bert代码一直过拟合,哎,先用paddle吧,毕竟是百度大佬的,如果你想快速做出来一些东西,推荐使用paddle,这个项目是之前做过猫狗猴的图片分类,现在继续用这个数据集进行目标检测数据集制作VOC类型数据集,需要使用 labelImg工具(https://github.com/tzutalin/labelImg),推荐直接使用pip install labelImg -i https://mirror.baidu.原创 2021-10-27 16:55:22 · 892 阅读 · 0 评论 -
python_thrift
在第一家公司用的是diango,而且也是老大写好的,也没有多研究,第二家老板说用thrift,那就用thrift了呗,好像是他们做过对比,这个更优秀点,以后有时间进行对比吧,thrift 主要是服务端和客户端,一般我写服务端,java掉我的接口,thrift 介绍Thrift最初由Facebook开发的,后来提交给了Apache基金会将Thrift作为一个开源项目。当时facebook开发使用它是为了解决系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性,所以Thrift是支持跨原创 2021-10-21 14:16:27 · 232 阅读 · 0 评论 -
python 打包
我们如果写了一个小脚本,想在客户电脑上运行,而且不去装环境,就需要打包为exe文件直接运行pip install pyinstaller pip install -i https://pypi.douban.com/simple/ pyinstaller #豆瓣源之后使用命令Pyinstaller -F -w py_word.py-F参数代表制作独立的可执行程序。-w是指程序启动的时候不会打开命令行。如果不加-w的参数,就会有黑洞洞的控制台窗口出来...原创 2021-08-23 13:50:16 · 132 阅读 · 0 评论 -
keras保存的h5、hdf5模型,加载时出现“AttributeError: ‘str‘ object has no attribute ‘decode‘ “
出现这个问题,是版本不匹配的问题,是由于h5py模块的版本问题,改用2.10版本pip install h5py==2.10 -i https://pypi.doubanio.com/simple之后又遇到报错TypeError: Unexpected keyword argument passed to optimizer: learning_rate这个需要加一段代码ner_model = load_model("%s_ner.h5" % event_type, custom_object原创 2021-08-23 10:39:07 · 711 阅读 · 0 评论 -
处理图片技巧
1:当图片需要进行等比例缩小时可以使用from PIL import Imageimage = Image.open(image)half_size = (image.size[0] / 2, image.size[1] / 2)image.thumbnail(half_size, Image.ANTIALIAS)原创 2021-08-18 11:04:49 · 67 阅读 · 0 评论 -
笔记——BERT模型
bert 类型albert、Albert_tiny、Albert v2模型--------精简版的bert模型huggingfacebert模型存放的地方https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english/tree/main原创 2021-08-17 23:46:17 · 982 阅读 · 0 评论 -
linux笔记
1:Linux刚安装root密码 sudo passwd root2:Linux下文件安装权限不够3:Linux下安装anacondasudo vi ~/.bashrc最后一行加入注意是英文符号export PATH="/home/c/anaconda3/bin:$PATH"clc 清屏source ~/.bashrc改变属性 因为anaconda是root属性安装完后退出环境之后再安装退出conda环境conda deactivate切换环境conda activate ocr原创 2021-08-17 09:59:41 · 162 阅读 · 0 评论 -
pytorch 实现半圆数据分类
import sklearn.datasets #引入数据集import torchimport numpy as npimport matplotlib.pyplot as pltfrom code_03_moons_fun import LogicNet,plot_losses,predict,plot_decision_boundarytorch.manual_seed(0)torch.cuda.manual_seed_all(0)torch.backends.cudnn.de原创 2021-08-11 22:05:32 · 329 阅读 · 0 评论 -
摘要抽取算法——最大边界相关算法MMR(Maximal Marginal Relevance)
用途快速的抽取出一篇文章的主要内容,这样读者就能够通过最少的文字,了解到文章最要想表达的内容方法一种是生成式:生成式一般采用的是监督式学习算法,最常见的就是seq2seq模型,需要大量的训练数据。生成式的优点是模型可以学会自己总结文章的内容,而它的缺点是生成的摘要可能会出现语句不通顺的情况。另一种是抽取式:常见的算法是 textrank,MMR(Maximal Marginal Relevance),当然也可以采用深度学习算法。抽取式指的摘要是从文章中抽出一些重要的句子,代表整篇文章的内容。抽原创 2021-08-09 16:55:29 · 1528 阅读 · 0 评论 -
dtreeviz 画树模型
当使用决策树后我们想将决策结果进行展示时,可以使用dtreeviz进行绘图,现在用内置数据load_iris,进行demo演示import matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.datasets import load_iris, load_bostonfrom sklearn import treefrom dtreeviz.trees import *#原创 2021-08-03 15:21:29 · 1677 阅读 · 0 评论 -
图像标注软件
最近在研究ocr图像识别,需要进行数据标记,在GITHUB上寻找到一个在线标注软件,感觉很不错,进行分享下https://rachelcao277.github.io/LabelImage/进去是这样的,可以选择这两个按钮进行数据标注,推荐使用第二个,会将四个坐标保存之后按这个进行保存推荐使用notepad++ 打开对应json 文件结果如上图所示...原创 2021-08-02 17:02:48 · 139 阅读 · 0 评论 -
AttributeError: ‘_thread._local‘ object has no attribute ‘value‘
thrift 在服务端进行调用没有问题,在客户端进行调用就出现问题了,最好的解决方案就改变tensorflow与keras的版本pip install tensorflow==1.14 -i https://pypi.tuna.tsinghua.edu.cn/simplepip install keras==2.2.5 -i https://pypi.tuna.tsinghua.edu.cn/simple...原创 2021-07-26 14:33:22 · 549 阅读 · 0 评论 -
LTP入门操作
LTP 安装直接pip install ltp,这个是官方地址https://ltp.readthedocs.io/zh_CN/latest/quickstart.html,里面有详细的介绍,我下面的代码只是方便我使用以及按照自己的需求进行修改from ltp import LTPltp = LTP() # 默认加载 Small 模型# 分句sents = ltp.sent_split(["他叫汤姆去拿外衣。", "汤姆生病了。他去了医院。"])# 分词segment, _ = ltp.seg原创 2021-07-23 17:04:08 · 1829 阅读 · 0 评论 -
数据分析_金额业务数据知识
1:理财产品有分现金管理型和非现金管理型,一般来说非现金管理型的产品会披露净值数据,但是现金管理型产品披露万份收益和7日年化收益率的情况比较多2:净值型周期表(product_jz_cycle)只登记开放式的产品3:同一款产品同一投资开始日会对应多个期限下限,因为结构性产品根据持有期限的长短,它的预期收益率不同3:开放式净值型产品在售产品 需要将开放式产品中符合条件加入((c.kfsg_start_date<=date2 and c.kfsg_end_date>= date1)4:一原创 2021-05-10 10:41:41 · 691 阅读 · 0 评论 -
python——周报月报季报年报
def calculate_date(self): start_date = self.start_date print(start_date) date_lst = [] if start_date.weekday() == 0: week_end_date = start_date - datetime.timedelta(1) week_start_date = start_dat...原创 2020-12-15 18:26:03 · 790 阅读 · 0 评论 -
pandas表字段为空用其余表替换
需求:要求将两张表合并,第一张表字段为空时用第二张表字段代替import pandas as pdimport numpy as np##修改列的名字def Null_Next_Fill(df1,df2,merge_list): #当需要匹配的参数为两个时,将需要匹配的参数提前,防止在之后的操作中重命名 for i,j in enumerate(merge_list): df1_new = df1[j] df1 = df1.drop(j,axis=1原创 2020-11-16 06:52:55 · 390 阅读 · 0 评论 -
python库批量安装的方法
在融入一个集体时,可能会使用团队所用的库,可能会遇到批量安装库的情况,我入职后大哥给我txt文本,如下图所示,一个一个导入太麻烦,所以使用自己写了一个脚本,import pandas as pdimport os # 导入os库test=pd.read_csv('E:\work_test/requirements.txt')for i in test['ku']: os.system("pip install %s -i http://pypi.douban.com/simple原创 2020-10-29 09:01:17 · 2469 阅读 · 2 评论 -
Python解数独
前几天在面试过程中一位大哥让我解数独。。。。。。,之前又没玩过这东西,就找了网上的代码,直接输入就解开了,哈哈,在这分享给大家。import random import sys sys.setrecursionlimit(100000) # 发现python默认的递归深度是很有限的 #(默认是1000),因此当递归深度超过999的 # 样子,就会引发这样的一个异常。def get_next(m:"数独矩阵", x:"空白格行数", y:"空白格列数"): """原创 2020-09-29 22:28:17 · 292 阅读 · 0 评论 -
Anaconda下载太慢
anaconda是数据分析必不可少的软件,但是下载会遇到太慢,所以使用中国镜像,以下为地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/原创 2020-07-16 12:03:58 · 990 阅读 · 0 评论 -
wireshark未响应
公司任务,需要抓包,但是一开始就遇到了一个问题,就是wireshark,毕竟也是第一次用(其实也不是,上学的时候用过,主要玩上了,没听,嘻嘻)一上来就卡死,奔溃,看了好多大佬的,要改这改哪,一直不好,也是偶然,我吧有道词典关了,居然好了,求大佬解答呀!!!!!1索到这个问题的一般都是程序员吧,应该都装有道词典了吧(英语不好必备),那么这个问题也就解决了吧,哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈,...原创 2020-04-25 22:45:47 · 5447 阅读 · 15 评论 -
keras安装不成功超时
pipinstallkeras-ihttp://pypi.douban.com/simple/--trusted-hostpypi.douban.com--use原创 2020-03-19 15:01:15 · 1058 阅读 · 0 评论 -
python中jupyter notebook 去掉警告
我们在进行编码是,会因为版本,库的更新等问题导致会出现警告,就是报红,不影响代码,但是影响美感,所以我们要进行删除,加入如下代码就可以from sklearn import metricsimport warningswarnings.filterwarnings("ignore")...原创 2020-02-10 20:14:41 · 14230 阅读 · 2 评论 -
安装Aanconda详细教程
1:安装包我提供Anaconda3-5.3.1-Windows-x86_64安装包2:过程点击 l Agree要是电脑上没装什么环境,就吧两个都勾选上,在这过程中有什么问题可以留言,我应该都能解决。...原创 2019-12-30 18:33:10 · 2479 阅读 · 0 评论 -
史**_python保存为txt
这是帮史**做的一个小作业,算是锻炼了一下Python如何保存为txt文档吧import pandas as pdimport datetimetest=pd.read_excel('9c70d34d12b9b07fad58192eaa38a5c7.xlsx')test.head()now_time = datetime.datetime.now()X=datetime.dat...原创 2019-12-28 15:19:56 · 311 阅读 · 0 评论 -
Python动态数据展示
import xlrdimport datetimeimport matplotlib.pyplot as pltimport imageiodef data_gif(cols, xlim_num, duration):#cols 展示前几列的数据,xlim_num x轴刻度值,duration 两张图片间的间隔,建议写0.2-0.5 plt.rcParams['font.s...原创 2019-12-21 15:09:43 · 1670 阅读 · 0 评论 -
pip太慢豆瓣下载地址
pipinstall XXX -ihttp://pypi.douban.com/simple/--trusted-hostpypi.douban.com原创 2019-11-25 15:00:38 · 148 阅读 · 0 评论 -
作业_比较不同分类模型
import numpy as np import pandas as pd import matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifierfrom sklearn.linear_model import LogisticRegres...原创 2019-11-06 22:47:55 · 1776 阅读 · 0 评论 -
传统机器学习流程总结
数据采集和标记爬虫技巧总结各行业小知识总结数据清洗object值#在实际模型建立中,训练集和测试集一般分开处理,如果直接使用分类处理,会导致新数据没有一个规定#查看多少类变量tab_1['字段'].unique()def function(a): if '数值或字符'in a : return 1 else: return 2tab_1['结果'] = tab_1.........................原创 2019-10-17 08:19:34 · 3569 阅读 · 2 评论