自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (2)
  • 收藏
  • 关注

原创 miniconda的使用以及在指定位置创建conda的虚拟环境

Miniconda简介Miniconda是一款小巧的python环境管理工具,安装包大约只有70M多点,其安装程序中包含conda软件包管理器和Python。一旦安装了Miniconda,就可以使用conda命令安装任何其他软件工具包并创建环境等。本文是在Windows 10系统下进行下载和安装。

2023-07-26 10:22:00 6429

转载 python timestamp、time、datetime类型之间的互转

谈谈python time datetime timestamp之间转换_timestamp 转换_yrx0619的博客-CSDN博客

2023-04-14 10:08:43 176

原创 Markdown发布静态网页

对于展示型网站,例如官网这种场景,会有很多小的页面,运营会根据市场时刻有增删修改类似页面的需求,如果每次都响应运营的需求,不断地迭代增删页面,这个工作是很难终结的,运营不能及时看到页面,而开发会深陷在重复繁杂的工作中。市面上供用户使用,能生成 html 的编辑器多为富文本编辑器,富文本编辑器优点是样式可以自由定制,但在我们的官网场景中,样式的不可控反而成了其缺点,我们不可能让官网的展示凭用户喜好随意改动。把页面的控制权交给运营,解放其他人员,是这个方案最大的出发点。还有其他可以考虑,比如。

2023-04-10 10:25:11 865

转载 统信UOS/Debian/Ubuntu完全卸载删除Docker

可能仍然存在一些docker文件。这个时候,你可以执行一下删除方式,再次进行卸载。卸载Docker,同时删除Docker镜像、容器、数据卷等文件。查看删除docker其他有没有没有卸载干净的包。删除docker的相关配置&目录。删除安装时自动安装的所有包。确定docker卸载完毕。确定docker卸载完毕。删除所有相关文件即可。

2023-04-06 14:11:50 2264

原创 Xpath、css选择器学习

xpath路径表达式笔记 - 阮一峰的网络日志 (ruanyifeng.com) CSS选择器笔记 - 阮一峰的网络日志 (ruanyifeng.com) 学爬虫利器XPath,看这一篇就够了 - 知乎 (zhihu.com)

2023-03-27 15:31:47 70

转载 Jupyter Lab | 安装、配置、插件推荐、多用户使用教程

Jupyter Lab是Jupyter的下一代笔记本界面,可让用户创建和共享包含实时代码、公式、可视化和叙述文本的文档。 用途包括:数据清理和转换、数值模拟、统计建模、数据可视化、机器学习等等。

2023-02-23 12:57:08 3588

原创 mysql 8.0 忘记root密码-linux

mysql8重置root密码

2023-02-18 09:54:00 539

原创 批量kill进程

批量清理进程

2022-11-27 23:03:00 273

原创 拒绝ssh远程暴力破解-以centos7及centos8为例

centos中ssh的暴力破解防范方法

2022-11-27 18:53:28 1310

原创 linux搭建git服务器,windows客户端配置git

git服务端和客户端设置

2022-11-25 08:46:15 1062

转载 8个常用的数据清洗的Python代码

大数据工程师Kin Lim Lee在Medium上发表了一篇文章,介绍了8个常用的数据清洗的Python代码。这些用于数据清洗的代码有两个优点:一是由函数编写而成,不用改参数就可以直接使用。二是非常简单,加上注释最长的也不过11行。在介绍每一段代码时,Lee都给出了用途,也在代码中也给出注释。你可以把这篇文章收藏起来,当做工具箱使用。涵盖8大场景的数据清洗代码这些数据清洗代码,一共涵盖8个场景,分别是:删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、

2022-05-22 23:05:45 1505

转载 项目内导入相关py文件时:ModuleNotFoundError: No module named 错误的解决办法

1、如果需要导入的包和导入包的文件在同一个目录下,直接import即可例如b.py需要用a.py的某些代码就可以直接import2.如果导入的模块是在主程序所在目录的子目录下可以在子目录中增加一个空白的__init__.py文件,该文件使得python解释器将子目录整个也当成一个模块,然后直接通过“import 子目录.模块”导入即可。例如b.py需要用c.py的某些代码就可以直接import3.如果导入的模块是在主程序所在目录的父目录下,则要通过修改path来解决,有两种方法:...

2022-02-09 15:05:21 9721

原创 python一些优秀第三方包

Tablib 模块简介:在Python 程序中,可以使用第三方模块Tablib 将数据导出为各种不同格式,包括Excel、JSON、HTML、Yaml、CSV和TSV 等格式。金融分析talibtalib 是Python金融量化的高级库,涵盖了150多种股票、期货交易软件中常用的技术分析指标,如MACD、RSI、KDJ、动量指标、布林带等等。pandas...

2022-01-09 11:16:38 478

转载 Python机器学习之文本分类——朴素贝叶斯分类器

参考1:Python机器学习(5)——朴素贝叶斯分类器 - 钱银 - 博客园朴素贝叶斯分类器是一个以贝叶斯定理为基础,广泛应用于情感分类领域的优美分类器。本文我们尝试使用该分类器来解决上一篇文章中影评态度分类。1、贝叶斯定理假设对于某个数据集,随机变量C表示样本为C类的概率,F1表示测试样本某特征出现的概率,套用基本贝叶斯公式,则如下所示:上式表示对于某个样本,特征F1出现时,该样本被分为C类的条件概率。那么如何用上式来对测试样本分类呢?举例来说,有个测试样本,其特征F1出现了.

2021-11-29 17:39:03 2338

转载 mysql insert ignore与replace into区别

mysql中常用的三种插入数据的语句:一、insert intoinsert into表示插入数据,数据库会检查主键(PrimaryKey),如果出现重复会报错;二、replace intoreplace into表示插入替换数据,需要定义PrimaryKey或者unique索引,如果数据库已经存在数据,则用新数据替换,如果没有数据效果则和insert into一样;REPLACE语句会返回一个数,来指示受影响的行的数目。该数是被删除和被插入的行数的和。如果对于一个单行REPLACE该数为

2021-11-03 12:16:32 168

原创 gensim使用

1. gensim 读取tencent ai参考文档:gensimmodels.keyedvectors – Store and query word vectors>>> from gensim.test.utils import common_texts>>> from gensim.models import Word2Vec>>>>>> model = Word2Vec(common_texts, size=..

2021-10-25 15:29:29 172

原创 中文查重原理 及算法实例(python)

1. simhash的算法原理https://github.com/1e0ng/simhashhttps://github.com/1e0ng/simhashsimhash的中文实现(python) - 简书最近工作上需要处理文本相似度的问题,一共5万多个文档;第一步,是先是要进行颗粒度较粗的,发现基本相似的文档,进行基本的 “聚类”;第二步,针对相似的文档,然后进行详细的比较;...https://www.jianshu.com/p/1187fb7c59c5GitHub - tianlian0/du.

2021-10-25 15:27:39 3777

原创 linux下定时器crontab的使用

项目开发中经常需要用将某个脚本定时运行从而避免其运行并不会影响到其他程序,下面是简略版。$ chmod 777 some_script.sh # 保证脚本是可执行的$ sudo crontab -e # -e参数表示进入编辑器添加所需的定时执行文件00 22 * * * some_script.sh # 前5个参数是数字:第1个表示分;第2个是小时;第3个是天(月份中的第几天);第4个是月,第5个是天(星期中的第几天)。第6个参数是指定的文件======================.

2021-10-19 17:13:12 1667

转载 mybatis where trim标签

使用mybatis写where语句的时候,一般会这样写。<select id="findActiveBlogLike" resultType="Blog"> SELECT * FROM BLOG WHERE <if test="state != null"> state = #{state} </if> <if test="title != null"> AND title like #{title}

2021-10-16 14:02:59 635

原创 sklearn及gensim下lda模型的训练

sklearn【sklearn】利用sklearn训练LDA主题模型及调参详解_TiffanyRabbit的博客-CSDN博客sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口,还提供了很多常用语言模型的接口,LDA主题模型就是其中之一。本文除了介绍LDA模型的基本参数、调用训练以外,还将提供两种LDA调参的可行策略,供大家参考讨论。考虑到篇幅,本文将略去LDA原理证明部分。https://blog.csdn.net/TiffanyRabbit/article/details

2021-10-08 17:51:51 2051

转载 中文文本挖掘预处理流程总结

    在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点    首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。    首先,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本挖掘的分词原理中,我们已经讲到了中文的分词原理,这里就不多说。    第二,中..

2021-10-08 16:37:33 1072

原创 行情数据接口-美股版

一、美股历史数据API1.数据列表待完善补充2. 雅虎网(1)官网:https://www.yahoo.com/(2)安装 pandas-datareader命令行窗口:pip install pandas-datareader(建议)下载本地安装:https://pypi.org/project/pandas-datareader/(3)读取数据import pandas_datareader.data as pdr# 读取标普500sp500 = pdr.Data.

2021-08-28 07:55:43 3505

原创 pandas 两列的值转dict

1、把dataframe中的某两列变成一个key-value形式的dict 代码如下:import pandas as pddf = pd.DataFrame({'A': ['a', 'b', 'c'], 'B': [2, 7, 1], 'C': [100, 87, 96]})# 形成以A为key,B为value的dictdc = df.set_index("A")["B"].to_dict()p...

2021-08-28 07:54:16 1846

原创 中证指数公司调整指数样本股定期更换时间

  摘自中国证券报 2013年7月2日 上海证券交易所和中证指数有限公司日前宣布,自2013年下半年起调整指数样本股定期更换的时间,包括沪深300、上证180等主要指数的样本定期更换,提前至每年6月和12月的第二个周五收市后生效。  相关人士表示,目前中证指数有限公司管理的沪深300、上证180等主要市场指数都是执行半年定期调整样本的规则,样本更换时间固定为每年6月和12月的最后交易日收市后生效,样本调整名单则一般提前两周公布。近年来指数化投资蓬勃发展,内地市场有150多只指数基金和ETF以中...

2021-08-26 18:22:05 1006

转载 requests session保持cookie,并自动在header中添加

2018年11月28日更新:其实只要用cookies属性的update方法更新cookie就行了。比如:cookie_dict = {"a":1}s = requests.Session()s.cookies.update(cookie_dict)s.get(url)下面的方法虽然也可以用,但相对比较繁琐。----------------------------以下是原来的内容---------------------------------最近在做爬虫的时候遇到了一个问题,在用

2021-07-25 22:48:53 2447

原创 解决IDEA下tomcat8乱码问题

系统:win10家庭版环境:tomcat8.5+jdk8+idea2017.2.5目标:idea下的 Server,Tomcat Localhost Log, Tomcat Catalina Log,以及本地生成的日志文件输出的中文都不会乱码场景回顾:从服务器上拉下来的代码编码格式是 UTF-8 的,idea通过Settings-》Editor-》File Encodings全部都设置为了UTF-8,之后启动tomcat后,发现Tomcat Catalina Log面板中涉及中文字符的全部都乱码

2021-03-27 15:35:04 1125

原创 重要资料收藏

某咨询公司项目管理咨询标准流程.PPT(麦肯锡)https://max.book118.com/html/2018/0907/5334243034001313.shtm

2021-02-28 17:53:45 64

原创 跨域访问图片403

在本地页面里用img标签访问页面图片返回403forbidden。而浏览器可以直接打开。好像是他们的服务器做了处理。在html中加了<metaname="referrer"content="no-referrer"/>解决<img referrerpolicy="no-referrer" /> 有时并不能解决问题;所以可以 nginx 反向代理图片,配置:location /biliproxy/i0hdslbcom { proxy_pass ...

2021-02-07 13:15:18 489 1

转载 转载:Mysql中文全文检索用法及排序

MySQL中文全文检索demoSQL一、概述 MySQL全文检索是利用查询关键字和查询列内容之间的相关度进行检索,可以利用全文索引来提高匹配的速度。二、语法 MATCH (col1,col2,...) AGAINST (expr [search_modifier]) search_modifier: { IN BOOLEAN MODE | WITH QUERY EXPANSION } 例如:SELECT * FROM tab_name WH...

2021-02-02 15:26:27 1281

原创 正则表达式提取HTML中img标签的src地址

正则表达式提取HTML中img标签的src地址一般来说一个 HTML 文档有很多标签,比如“title”、“head”、“script”等,  想把文档中的 img 标签提取出来并不是一件容易的事。  由于 img 标签样式变化多端,使提取的时候用程序寻找并不容易。  于是想要寻找它们就必须写一个非常健全的正则表达式,不然有可能会找得不全,或者找出来的不是正确的 img 标签。  我们可以从 HTML 标签的格式去想应该怎么建这个正则表达式。  首先要想一下 img 标签有几种写法,忽略大小写

2021-01-26 14:20:42 1644

转载 linux免密登录的原理

免密登录原理如下( 图片来自于网络)图解,server A免登录到server B:1.在A上生成公钥私钥。2.将公钥拷贝给server B,要重命名成authorized_keys(从英文名就知道含义了)3.Server A向Server B发送一个连接请求。4.Server B得到Server A的信息后,在authorized_key中查找,如果有相应的用户名和IP,则随机生成一个字符串,并用Server A的公钥加密,发送给Server A。5.Server A得到Server B

2020-12-02 09:03:12 592

原创 windows免密码登陆linux服务器

win10 登陆linuxwin101、本地生成公钥和私钥,这边是使用git 中 shell产生的,其他类Unix系统可以直接在终端生成ssh-keygen -t rsa #该命令产生的密钥是通过rsa算法加密生成的生成密钥过程中可以一路回车,不给定密钥文件名字和密码,使用默认的密钥文件名称和空密码3、将刚刚生成的公钥(带.pub结尾的文件)ssh_rsa.pub上传到Linux服务器刚刚新建的用户目录下(即/root目录下),此时我们就可以用rz命令了..

2020-12-01 22:39:01 888

转载 ​​​​​​​python 时间戳转日期 不自动补零 without zero-padding

1. 日期转时间字符串不自动补零对于Linux 需要在字段类型前加上-对于win 需要再字段类型前加上#代码示例import timetimestamp = 1568171336time_format = "%Y-%#m-%#d %H:%M:%S"time_local = time.localtime(timestamp)new_date = time.strftime(...

2020-03-24 21:25:35 189

转载 pandas 切分数据 行拆分成多行

pandas返回的是一个特殊的Categorical对象。 你可以将其看做一组表 示面元名称的字符串。 实际上,它含有一个表示 不同分类名称的levels数组以及一个为年龄数据进行标号的labels属性。跟“区间”的数学符号 一样,圆括号表示开端,而方括号则表示闭端(包括)。 哪边是闭端可以通过right.也可以自定义label名称。from pandas import Series,D...

2020-02-12 17:31:39 4533 2

原创 如何将Tomcat的默认首页换成自定义的首页

如何将Tomcat的默认首页换成自定义的首页要使定制的页面成为Tomcat服务器的首页,有以下两种不同的实现方式。1.直接替换在%TOMCAT_HOME%/webapps/ROOT文件夹下,有一个index.jsp文件,将它用所需的JSP应用程序的首页替换.然后打开%TOMCAT_HOME%/webapps/ROOT/WEB-INF文件夹下的web.xml进行修改,把其中的servlet...

2019-12-28 22:15:53 876 1

原创 linux mysql常用操作

linux下MySQL停止和重启一、启动方式1、使用linux命令service 启动:service mysqld start2、使用 mysqld 脚本启动:/etc/inint.d/mysqld start3、使用 safe_mysqld 启动:safe_mysqld&二、停止1、使用 service 启动:service mysqld stop2、使用 m...

2019-12-16 13:39:31 117

转载 腾讯云服务器 非Root用户启动tomcat(使用80端口)

centos7系统firewalld环境下:主要参考:1. 使用非Root用户启动tomcat(使用80端口)https://blog.csdn.net/xiaohe73/article/details/834132132. 腾讯云 centos 开发端口https://www.jianshu.com/p/d457ed35563b3.centos7配置端口转发http...

2019-12-14 22:09:00 471

原创 Windows 下 MySQL8 的安装和启动

1 安装去oracle官网http://dev.mysql.com/downloads/mysql/ 下载,以 zip 格式打包的 MySQL,我下载的版本是MySQL Community Server 8.0.18,下载后文件为 mysql-8.0.18-winx64.zip。解压到你希望的目录,这个目录就是 MySQL 安装目录。安装过程可以参考:https://dev.mysq...

2019-12-01 16:04:56 1516

转载 字符串相似性的几种度量方法

编辑距离部分的详解, 比较推荐:(1)大神matrix67的文章:编辑距离、拼写检查与度量空间:一个有趣的数据结构(2)知乎专栏:字符串相似度之美(一)字符串相似度之美(二)本文转载于字符串相似性的几种度量方法1、余弦相似性(cosine similarity)余弦相似性大家都非常熟悉,它是定义在向量空间模型(VSM)中的。它的定义如下:其中,A,B为向量中间中的两...

2019-11-24 15:04:48 987

原创 正则表达式

零宽断言:零宽断言正如它的名字一样,是一种零宽度的匹配,它匹配到的内容不会保存到匹配结果中去,最终匹配结果只是一个位置而已。作用是给指定位置添加一个限定条件,用来规定此位置之前或者之后的字符必须满足限定条件才能使正则中的字表达式匹配成功。但注意一点:python中的负向零宽断言仅支持固定长度的。有一个正则表达式的测试网站:https://regexr.com/还有相应的工具,可...

2019-11-22 21:04:11 91

sbt 1.2.7 windows版本

sbt的最新编译版本,亲测可用。安装目录请选择没有中文和空格的目录中,可以自动添加环境变量。使用命令行输入sbt,进行测试

2018-12-11

Matlab 主题模型工具箱(Topic Modeling Toolbox 1.4)

支持LDA、AT、HMM-LDA模型,功能多样。尤其是HMM-LDA可以进行自动过滤停用词的主题模型分析。

2015-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除