自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 XShell用SSH密钥连接服务器

新建用户密钥工具->新建用户密钥生成向导->密钥长度4096位->下一步生成用户密钥->密码可设置为空->保存公钥文件到本地上传公钥到服务器在服务器上执行vim .ssh/authorized_keys,将id_rsa_4096.pub中的key复制到该文件中,保存退出客户机连接服务器新建会话->连接:输入名称、主机名用户身份验证:方法选择Public Key,输入用户名,用户密钥选择id_rsa_4096,浏览选择之前生成的密钥->连接...

2020-11-09 19:10:21 1715

原创 使用K-均值聚类算法进行文本聚类

中文文本聚类主要有以下几个步骤:切词去除停用词构建词袋空间VSM(vector space model)TF-IDF构建词权重使用K-means算法参考博客使用scikit-learn进行KMeans文本聚类,按照以下步骤简单进行了文本聚类:使用jieba结巴分词Github对文本进行中文分词使用scikit-learn的TfidfVectorizer把原始文本转化为TF-I...

2018-09-18 21:40:05 2689

原创 K-均值聚类算法

K-均值聚类算法简介K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心(centroid) , 即簇中所有点的中心来描述。工作流程首先,随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中,具体来讲,为每个点找距其最近的质心,并将其分配给该质心所对应的簇。这一步完成之后,每个簇的质心更新为该簇所有点的平均值。上述过程的伪代码表示如下:创建k个点...

2018-09-18 21:30:30 1659

原创 Python异常UnicodeEncodeError 'gbk' codec can't encode character '\xa0'

问题描述在写爬虫爬取网页信息时,发生了以下错误:UnicodeEncodeError: 'gbk' codec can't encode character '\xa0'意思大致是Unicode编码错误,gbk编解码器不能编码\xa0字符。爬虫程序爬取的是课程信息,包含中文。使用requests库访问网页,使用BeautifulSoup库解析网页,用get_text()方法获取标签...

2018-09-10 20:04:30 7346 1

原创 Python异常UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd'

问题描述在写爬虫爬取网页信息时,发生了以下错误:UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd'意思大致是Unicode编码错误,gbk编解码器不能编码\ufffd字符。爬虫程序爬取的是课程信息,包含中文。使用requests库访问网页,使用BeautifulSoup库解析网页,用get_text()方法...

2018-09-10 19:58:14 40201 3

原创 使用python进行URL编码

为什么要对URL进行encode在写网络爬虫时,发现提交表单中的中文字符都变成了TextBox1=%B8%C5%C2%CA%C2%DB这种样子,观察这是中文对应的GB2312编码,实际上是进行了GB2312编码和urlencode。那么为什么要对URL进行encode?因为在标准的url规范中中文和很多的字符是不允许出现在url中的。为了字符编码(gbk、utf8)和特殊字符不出现在u...

2018-09-10 19:40:54 24998 1

原创 使用python发送QQ邮件

SMTP介绍SMTP是发送邮件的协议,Python内置对SMTP的支持,可以发送纯文本邮件、HTML邮件以及带附件的邮件。Python对SMTP支持有 smtplib 和 email 两个模块,email负责构造邮件,smtplib负责发送邮件。Python 的 email 模块里包含了许多实用的邮件格式设置函数,可以用来创建邮件“包裹”。使用的 MIMEText 对象,为底层的 MI...

2018-09-10 19:31:27 4555 2

原创 将python脚本打包成可执行exe文件

将python脚本打包成可执行exe文件python脚本的发布方式Python是一个脚本语言,被解释器解释执行。它的发布方式:.py文件:对于开源项目或者源码没那么重要的,直接提供源码,需要使用者自行安装Python并且安装依赖的各种库。(Python官方的各种安装包就是这样做的).pyc文件:有些公司或个人因为机密或者各种原因,不愿意源码被运行者看到,可以使用pyc文件发布,...

2018-09-10 17:08:02 1150

原创 在sublime中运行python

下载sublime和Python,安装Pythonsublime版本:3.1.1运行python文件的配置在菜单栏(已汉化)的工具->编译系统,选择python,使用快捷键Ctrl+B编译,发现输出信息只有[Finished in 0.2s],并没有正确运行,说明需要进行配置。点击菜单栏的首选项->浏览插件目录,在打开的目录(win7下为C:\Users\Admin...

2018-09-10 16:49:58 5318

原创 Python3中的md5加密

Python3中的md5加密md5介绍在写网络爬虫模拟登陆时,遇到提交表单时是一串数字和字母,才知道经过了md5加密。md5加密的密码MD5消息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5是最常见的摘要算法,速度很...

2018-09-10 16:39:42 61115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除