机器学习
文章平均质量分 68
机器学习
evan_qb
冰冻三尺,非一日之寒
展开
-
Python常用的格式化符号
常用的如下: 格式符号 转换 %c 字符 %s 通过str() 字符串转换来格式化 %i 有符号十进制整数 %d 有符号十进制整数 %u 无符号十进制整数 %o 八进制整数 %x 十六进制整数(小写字母) %X 十六进制整数(大写字母) %e 用科学计数法格式化浮点数 %E 作用和%e...原创 2017-09-04 13:09:19 · 3544 阅读 · 3 评论 -
【python】jsonpath与xpath的区别
son结构清晰,可读性高,复杂度低,非常容易匹配,下表中对应了XPath的用法。原创 2018-06-20 13:56:37 · 1960 阅读 · 0 评论 -
【python】python的json模块方法说明
# -*- encoding:utf-8 -*-import json# json.loads() 把Json格式字符串解码转换成Python对象strList = '[1,2,3,4,5]'strDict = '{"city":"北京","name":"evan_qb"}'print(json.loads(strList))print(json.loads(strDict))...原创 2018-06-20 13:34:19 · 249 阅读 · 0 评论 -
【python】使用bs4以及BeautifulSoup爬虫爬取信息
首先我们的参考网站为: https://hr.tencent.com/position.php?&start=10#a然后我们进入该网站查看信息:通过审查元素我们可以发现我们需要的内容都在class='even'或者class='odd'的内容中,于是我们可以将这些内容全都爬取下来,然后再拼接到一起核心代码如下:获取到信息后将数据存入item数据字典中,然后再将item存入items序列中...原创 2018-06-20 11:06:19 · 3774 阅读 · 0 评论 -
【python】多线程爬虫实例
# -*- coding:utf-8 -*-from lxml import etreeimport requestsfrom Queue import Queueimport threadingimport timeimport jsonclass thread_crawl(threading.Thread): ''' 抓取线程类 ''' def...原创 2018-06-21 23:35:42 · 704 阅读 · 0 评论 -
【python】使用python做一个简单爬虫
爬虫的步骤如下:1.获取数据2.筛选数据3.保存数据4.显示数据在这里我们主要使用urllib2库来对网页进行爬取,本次我们爬取的参考网站是:http://www.jokeji.cn/jokehtml/ymww/2017091320204399.htm我们可以观察内容:发现正文的内容都在<span id="text110"></span>这个标签内,所以我们可以通过正则筛选...原创 2018-06-06 22:27:36 · 714 阅读 · 0 评论 -
【python】常见正则表达式匹配练习
收集一些常用的python正则练习# 匹配出0-99之间的数字print("---匹配出0-99之间的数字---")ret = re.match(r"^[1-9]?[0-9]$","77")print(ret.group())# 8到20位的密码,可以是⼤⼩写英⽂字⺟、数字、下划线print("---,8到20位的密码,可以是⼤⼩写英⽂字⺟、数字、下划线---")ret = r...原创 2018-06-05 13:18:47 · 3622 阅读 · 4 评论 -
【python】python使用tcp协议实现简单的聊天功能
服务端server.py:from socket import *# 创建sockettcpSerSocket = socket(AF_INET,SOCK_STREAM)# 绑定本地信息address = ('',8080)tcpSerSocket.bind(address)# 使⽤socket创建的套接字默认的属性是主动的,使⽤listen将其变为被动的,这样就可以接tcpS...原创 2018-06-04 16:29:32 · 5696 阅读 · 1 评论 -
【python】编写通用装饰器
需求:假如我们需要将一些方法加入日志,在python这时候就需要装饰器,而每个方法的参数,返回值各不相同,这时候,我们就需要编写一个通用的装饰器来将日志引入进来(测试版)'''通用装饰器'''def func(functionName): def func_in(*args, **kwargs): print("-----记录日志-----") ret...原创 2018-06-04 10:37:41 · 689 阅读 · 0 评论 -
【python】批量重命名
需求: 重命名某个文件夹下面的所有文件(不包括文件夹)#! usr/bin/pythonimport os# 将一个文件家下面的文件进行批量重命名# 获取一个需要重命名的文件夹folder_name = input("请输入要重命名的文件夹:\n")# 获取那个文件夹下面的所有文件file_names = os.listdir("E:/python/practice/" + fo...原创 2018-04-27 14:52:58 · 226 阅读 · 0 评论 -
【python】复制文件
#! usr/bin/python# 复制文件# 获取需要复制的文件名old_file_name = input("请输入需要复制的文件名(需要后缀):\n")# 打开要复制的文件f = open("E:/python/practice/" + old_file_name, "r")# 完成新文件名position = old_file_name.rfind(".")new_...原创 2018-04-27 14:36:35 · 314 阅读 · 0 评论 -
【python】 Windows下python和pip的环境配置
本文转载于:http://www.cnblogs.com/yuanzm/p/4089856.html 非常感谢原文作者的博文,帮助了我学习的不少困惑。 这篇文章作为学习使用Python的第一篇文章,如何安装Python以及pip,pip是用于后面安装各种库模块的一个工具,至于如何用pip安装库可以查看我先前写的一篇博客(链接:Python 如何安装各种模块(1))。本人也是正在学习过程中,若果文中...转载 2018-04-26 22:28:21 · 361 阅读 · 0 评论 -
使用python对中文文本进行分词
何为中文分词,指的是将一个汉字序列切分成一个个单独的词。这里我们推荐使用jieba分词,它是专门使用python语言开发的分词系统,占用资源较少,常识类文档的分词精度较高。我们可以去网上下载jieba的压缩包,然后解压,进入目录,找到setup.py这个文件,然后可以可以使用下面两种半自动方式去安装方式一: 进入cmd命令窗口,输入: python setup.py install j原创 2017-09-22 11:17:32 · 15980 阅读 · 1 评论 -
TF-IDF权重策略
TF-IDF:词频逆文档权重方案。含义:如果某个词或者短语在一篇文章中出现频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF(词频):指的是某一个给定词语在文件中出现的频率。TF = 该词在文件中出现的次数/在文件中所有字词的次数之和IDF(逆向文本频率):是一个词语普遍重要性的度量。IDF = log(总文件原创 2017-09-29 11:01:06 · 2494 阅读 · 1 评论 -
Python中字符串类型的常见方法总结
find 检测 str 是否包含在 mystr中,如果是返回开始的索引值,否则返回-1mystr.find(str)mystr.find(str,start,end)index跟find()方法一样,只不过如果str不在 mystr中会报一个异常.(substring no found)rfind类似于 find()函数,不过是从右边开始查找.rindex原创 2017-09-04 14:03:30 · 414 阅读 · 0 评论 -
【python】使用xpath爬取数据
本次素材我们以糗事百科为例子: https://www.qiushibaike.com/8hr/page/1/# -*- encoding:utf-8 -*-import requestsfrom lxml import etreeimport repage = 1url = "https://www.qiushibaike.com/8hr/page/" + str(page)pr...原创 2018-06-20 16:21:28 · 1625 阅读 · 0 评论