自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 LLM大模型微调(lora原理)

大模型lora微调原理

2024-11-08 16:40:53 765

原创 linux 安装anaconda3

使用下载对应安装包右击获取下载地址,使用终端下载。

2024-11-07 15:16:35 362 2

原创 linux nvidia/cuda安装

linux 配置显卡nvidia环境,cuda环境

2024-11-07 14:43:27 408

原创 基于Bert的提示学习(prompt)文本分类

提示学习

2023-01-31 15:32:56 2610 1

原创 基于bert的多标签分类模型

基于bert的多标签文本分类

2023-01-31 14:02:45 654

原创 双模态情感分析

基于文本、语音的双模态情感分析模型

2023-01-31 11:13:58 325

原创 实体对齐、实体链接模型(Keras)

实体对齐、实体链接模型(Keras)

2023-01-31 11:06:07 850 1

原创 linux、centos下安装neo4j3.5.26和jdk1.8

一、安装jdk1.81.准备好文件2.解压文件1 $ cd /home/zhx/tool2 $ tar -zxvf jdk-8u131-linux-x64.tar.gz我们要将解压后的【jdk1.8.0_221】里面的所有数据移动到我们需要安装的文件夹当中,我们打算将jdk安装在usr/java当中,我们在usr目录下新建一个java文件夹mkdir /usr/local/java将【jdk1.8.0_221】里的数据拷贝至java目录下mv /home/zhx/tool/jdk

2021-12-01 09:33:15 1323

原创 对话式AI——多轮对话拼接

1 介绍        oppo 举办的上下文拼接算法        比赛官网1.1 比赛任务:        本次比赛使用OPPO小布助手开放的“对话式指代消解与省略恢复”数据集。数据集中包括了3万条对话交互数据。每条数据样本提供三轮对话,分别是上轮query、

2021-11-19 16:37:07 1487 1

原创 linux常用命令

1. 脚本后台一直运行nohup python *.py &2. 端口号查询netstat -ntlp //查看当前所有tcp端口netstat -ntulp | grep 80 //查看所有80端口使用情况netstat -ntulp | grep 3306 //查看所有3306端口使用情况

2021-07-13 17:25:37 82

原创 Keras学习笔记(保存与加载)

1. 仅权重model.save_weights(filepath) # 将模型权重存储为 HDF5 文件。model.load_weights(filepath) # 加载模型2. 仅结构get_config()config = model.get_config() # 模型配置信息的字典model = Model.from_config(config)# 或者,对于 Sequential:model = Sequential.from_config(config)to_jso

2021-07-08 11:22:44 214

原创 Keras学习笔记(Callback)

Callback1. 想看一些callback类源码class Callback(object): def __init__(self): self.validation_data = None self.model = None def set_params(self, params): self.params = params def set_model(self, model): self.model =

2021-07-08 10:43:23 357

原创 Keras学习笔记(layers说明)

layers说明1. Dense(维度不变)全连接层,只对数据最后一个维度进行处理。2. Embedding(维度增加)词向量嵌入层,对输入文本的每一字扩展为一个向量,相当于对数据添加了一个维度。3. LSTM(维度减少)lstm只能处理文本维度的数据(不算batch为2维),将这两维的数据进行处理,输出值一维中。但是LSTM(16, return_state=True)时,有return_state=True则数据维度不会变。4. lFlatten(维度减至一维)数据展平,长度为各维(除b

2021-07-08 10:12:23 904

原创 Keras学习笔记(函数式API)

Keras学习笔记(函数式API)1.函数式API可以用来设计很复杂的模型,如下图模型结构:存在三个输入以及两个输出,在够贱的时候我们可以把layer当做堆积木一样,一块一块堆积,合并的方法现在有:layers.concatenate: 合并,叠加效果layers.average: 相加求平均layers.add: 相加等…条件就是除数据的最后一个维度外,其余维度必须相同(不同的应该也可以使用广播的方法进行层的合并),下面献上代码:from keras.models import Mode

2021-07-08 09:53:14 449

原创 Keras学习笔记(打印模型结构图片)

keras.utils.plot_model手动安装GRAPHVIZ1、下载graphviz-2.38.msi。(官网)2、双击开始安装,记住其中的安装路径。3、将graphviz加入到系统环境变量:1)建立变量名GRAPHVIZ_DOT,值为安装的路径C:\Program Files (x86)\Graphviz2.38\bin\dot.exe2)设置环境变量 在用户环境变量添加一个新的变量:建立变量名 GRAPHVIZ_INSTALL_DIR, 值为C:\Program Files (x86

2021-07-07 10:00:42 1081

原创 构建影视圈知识图谱与问答系统

构建影视圈知识图谱与问答系统1 影视圈数据梳理1.1 数据导入neo4j知识图谱中1.2 构建数据类型1.3 构建训练集、验证集2 意图识别2.1 模型介绍2.2 模型搭建与训练3 问答系统3.1 查询语句3.2 问答实例1 影视圈数据梳理原数据形式:1.电影类型2.演员介绍3.电影介绍1.1 数据导入neo4j知识图谱中# -*- coding: utf-8 -*-from py2neo import Graph, Node, Relationship, NodeMatcherim

2021-05-07 16:47:33 1332 1

原创 使用git将本地项目上传至github

使用git将本地项目上传至github在github中创建一个仓库创建好之后:在仓库里已经有一些怎么连接git的语句,但是有时会出错,所以我总结了一套语句供大家参考:# git初始化git init# 登录git config -- global user.email "1111@qq.com"git config -- global user.name "your name"# 添加要长传的文件,这里是第一次上传,所以选择所有的文件git add .# git注解git

2021-05-07 16:45:16 115

原创 gensim.word2vec 训练词向量

一、训练词向量# 导入必要的包import jiebaimport numpy as npimport pandas as pdfrom gensim.models.word2vec import Word2Vecimport joblibfrom sklearn.svm import SVC# 读取两个类别的语料pos = pd.read_csv('weather_pos.txt', encoding='UTF-8', header=None)neg = pd.read_csv('w

2020-10-31 10:38:04 1637 4

原创 机器学习(SVM)文本分类

训练# -*- coding: utf-8 -*-# @Project: company# @Author: little fly# @File name: 文本分类# @Create time: 2020/10/31 9:48# 导入必要的包import jiebaimport numpy as npimport pandas as pdfrom gensim.models.word2vec import Word2Vecimport joblibfrom sklearn.svm

2020-10-31 10:11:48 1708 1

原创 tkinter图形化界面

# -*- coding: utf-8 -*-# @Project: 机器学习# @Author: little fly# @File name: 生平标注# @Create time: 2020/9/7 21:47import tkinter.filedialogimport tkinter as tk # 导入tkinter模块from tkinter import scrolledtextimport tkinter.messageboxfrom tkinter import *

2020-10-22 11:50:13 432

原创 dict数据自动添加引号、冒号

python运行js代码:import execjswith open('js代码.txt', 'r', enconding = 'utf-8') as fp: js_text=fp.read()text = execjs.compile(js_text).call(hanshu, para1, para2)请求头加引号:header_all = """access-control-allow-credentials: trueaccess-control-allow-headers: *

2020-10-22 11:48:09 361

原创 机器学习读书笔记(线性回归之梯度下降)

1、理论理论方面就不多说了,见下图2、实现一元线性回归(梯度下降法)目标函数:y = 4*x + 31、根据当前的theta求Y的估计值传入的data_x的最左侧列为全1,即设X_0 = 1def return_Y_estimate(theta_now, data_x): # 确保theta_now为列向量 theta_now = theta_now.reshape(-1, 1) _Y_estimate = np.dot(data_x, theta_now)

2020-10-22 11:45:51 126

原创 机器学习之PSO粒子群

1. 起源       粒子群优化算法(Particle Swarm Optimization,PSO)属于进化算法的一种,是通过模拟鸟群捕食行为设计的。从随机解出发,通过迭代寻找最优解,通过适应度来评价解的品质。设想这样一个场景:一群鸟在随机搜索食物。在这个区域里只有一块食物。所有的鸟都不知道食物在那里。但是他们知道当前的位置离食物还有多远。那么找到食物的最优策略是什么呢。最简单有效的就是搜寻目前离食物最近的鸟的周围区域。三个属性每只鸟自身的飞行惯性 — 自

2020-09-16 18:16:32 2098

原创 机器学习之K-Means聚类

1.聚类聚类:简而言之就是物以类聚,与分类不同的是,对目标是未知的。它是一种无监督的学习(Unsupervised Learning)方法,不需要预先标注好的训练集。分类:目标类别已知,对数据进行归类。2.K-Means 算法kmeans算法又名k均值算法。其算法思想大致为:先从样本集中随机选取 k个样本作为簇中心,并计算所有样本与这 k个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。   根据以上描述,我们大致可以猜测到实现

2020-09-16 16:58:52 414

原创 js解密有道词典

有道翻译官网import timeimport randomimport hashlibheaders = { # 'Content-Length': '240', 'Cookie': 'OUTFOX_SEARCH_USER_ID=-1066101715@10.169.0.84; ' 'OUTFOX_SEARCH_USER_ID_NCOO=805928033.6230187; ' 'JSESSIONID=aaaB8dqXbJ9

2020-08-26 14:43:30 465

原创 处理list重复值,生成词列表

1、删除重复值使用set()方法,因为set中不允许出现重复值。list_all = [1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 4, 55, 4, 6, 414, 4]print(list(set(list_all)))Result:[1, 2, 3, 4, 5, 6, 7, 8, 9, 55, 414]2、查看重复值1、Counter作用:统计字符出现的次数。voc = 'hellothankyoufly'voc1 = ['a',

2020-08-24 17:35:52 337

原创 读取Excel之pandas

读取Excel1、read_excel()方法中参数说明:io:excel文件sheet_name:返回指定sheet,默认索引0返回第一个,也可用名称,如果返回多个则可用列表,为None则返回全表header:指定表头,也可用列表指定多行names:自定义列名,长度和Excel列长度必须一致index_col:用作索引的列usecols:读取指定的列,参数为列表,如[0, 1]表示第1和第2列2、实例读取Excel# 方法一:通过 index 指定工作表df3 = pd.read_e

2020-08-24 15:25:17 592

原创 seleniume之谷歌地图

谷歌地图网址输入地点,返回改地点作巴黎经纬度和改经纬度对应的地点。import xlrdfrom lxml import etreefrom selenium import webdriverimport timeimport pandas as pddef getadress(adress): # 获取当前页面句柄 dizhi = '' zuobiao = '' normal_window = browser.current_window_handle

2020-08-24 14:43:21 376

原创 Excel读取合并单元格

判断是否为合并单元格sheet:当前表格row_index:单元格行col_index:单元格列如果判断是合并单元格,则返回合并单元格的值。def get_merged_cells_value(sheet, row_index, col_index): """ 先判断给定的单元格,是否属于合并单元格; 如果是合并单元格,就返回合并单元格的内容 :return: """ merged = sheet.merged_cells for (rlow

2020-08-24 11:20:00 915

原创 爬虫之scrapy使用(八)

1、说明2、站长图片爬取3、中间件的使用(网易新闻)1、说明创建一个工程:scrapy startproject xxxProcd xxxPro在spiders子目录中创建一个爬虫文件scrapy genspider spiderName www.xxx.com执行工程:scrapy crawl spiderNamescrapy的五大核心组件:组件介绍引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Schedul.

2020-08-22 09:38:16 340

原创 爬虫之selenium模拟登入12306(七)

这里写目录标题环境安装:pip install selenium下载一个浏览器的驱动程序(谷歌浏览器)下载路径:http://chromedriver.storage.googleapis.com/index.html驱动程序和浏览器的映射关系:http://blog.csdn.net/huilan_same/article/details/51896672实例化一个浏览器对象编写基于浏览器自动化的操作代码发起请求:get(url)标签定位:find系列的方法标签交互:send

2020-08-22 01:50:07 278 1

原创 爬虫之requests异步抓取、多协成、多线程(六)

1、线程池2、协程2.1代理池、多协程分页爬取图片1、线程池模拟阻塞import time#导入线程池模块对应的类from multiprocessing.dummy import Pool#使用线程池方式执行start_time = time.time()def get_page(str): print("正在下载 :",str) time.sleep(2) print('下载成功:',str)name_list =['xiaozi','aa','bb','cc.

2020-08-22 01:41:46 5235

原创 爬虫之添加代理(五)

验证代理是否可用 try: telnetlib.Telnet('221.15.192.96', port='1080', timeout=3) except: print('ip无效!') else: print('ip有效!')添加代理添加proxy属性import requestsfrom random import choiceproxies= [ 'http://196.52.58.239:80',

2020-08-22 01:06:58 8893

原创 爬虫之验证码破解(四)

超级鹰注册超级鹰账户超级鹰官网官网有详细使用说明,以下是api使用方法。from hashlib import md5class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self.username = username password = password.encode('utf8') self.password = md5(p

2020-08-22 00:49:41 182

原创 爬虫之xpath的使用(三)

1、etree之xpath2、selenium之xpath3、scrapy之xpath1、etree之xpath首先pip install lxml安装lxml包from lxml import etreeetree.parse(filePath) #加载本地htmletree.HTML('page_text') #加载互联网页面/:表示的是从根节点开始定位,表示的是一个层级//:表示的是多个层级,可以表示从任意位置开始定位属性定位://div[@class=‘song’] tag[@.

2020-08-22 00:37:08 387

原创 bs4之BeautifulSoup使用(二)

1、实例化本地文件2、实例化网页数据1、实例化本地文件使用BeautifulSoup.tagName可以直接获取tagName便签,或者使用find()函数,相同的还有select()函数,查找所以的有find_all()函数。在find()和select()函数中可以进行条件查找‘class_’代表class属性,‘id’代表id属性或者直接用‘.id’来实现。from bs4 import BeautifulSoupfp = open('./demo.html', 'r', encoding=.

2020-08-22 00:03:27 268

原创 爬虫之Requests(一)

发送get请求简单get请求添加参数、响应头发送post请求发送get请求简单get请求这里就直接调用requests的get方法就可以,然后得到响应的页面,import requestspage_text = requests.get(url)添加参数、响应头1、对于大多数网站在我们访问的时候一般是会要求携带headers响应头,也就是UA伪装,要求更高的会要携带相关参数、cookies等。import requestsheaders = { 'User-Agent'.

2020-08-21 23:36:39 258

原创 Mongo Python增删改查

MongoDB For Python连接数据库增删改查连接数据库导入pymongo包,连接本地Mongo库,创建movies库top表。import pymongomyclient = pymongo.MongoClient("mongodb://localhost:27017")mydb = myclient['movies']mytable = mydb['top']增1.使用insert_one插入一条数据,如下:data = { 'number': 1, '电影名

2020-08-09 23:05:20 341 1

原创 Excel读取与保存

Excel读取与保存Excel的读取Excel的保存Excel的读取使用的是xlrd这个包,表格格式如下姓名学号性别年龄fly201601男21lst201602女20zxy201603男19import xlrdworkbook=xlrd.open_workbook('student.xls')worksheet=workbook.sheets()[0]for row in range(0,worksheet.nrows): for

2020-08-09 19:01:06 262

原创 读取文件夹与txt

读取文件夹与txt1.读取文件夹2.读取txt3.保存txt4.读取多个文件1.读取文件夹对文件夹进行读取使用的是listdir()函数来获取某个文件夹中的所有文件名,现在有一test文件夹,结构如下:testdemo1day1.txtday2.txtdemo2import osfor path in os.listdir(test_path): #test_path为test文件夹的路径 print path#out put:demo1 demo22.读取txt

2020-08-09 18:24:57 336

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除