![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 54
lynn_321
这个作者很懒,什么都没留下…
展开
-
文件读写-csv
前言逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列.特点 读取出的数据一般为字符类型,如果是数字需要人为转换为数字 以行为单原创 2022-03-23 11:22:16 · 2175 阅读 · 0 评论 -
Python编码规范
1、注意事项(1)文档仅适用于基于Python主要发行版本的标准库。(2)文档中的约定应基于现实考虑灵活处理,根据自身需求和团队其他成员的阅读习惯做适当调整。(3)若遵循文档中的规范使得代码可读性更差,或者因不符合个人习惯会造成代码错误,应适当采用。(4)已完成的代码未很好的遵循文档规范,不建议重新修改。2、代码布局2.1、Indentation 缩进 每一级缩进使用4个空格。 续行应该与其包裹元素对齐,要么使用圆括号、方括号和花括号内的隐式行连接来垂直对齐,要么使用原创 2022-03-23 11:19:14 · 3211 阅读 · 0 评论 -
python--提取eml邮件内容
所需包:"""pip install eml_parserpip install langdetect"""import reimport csvimport osfrom bs4 import BeautifulSoupimport eml_parserfrom langdetect import detectfrom langdetect import DetectorFactoryfrom translate import Translator # 英汉翻译部分...原创 2022-03-22 14:49:09 · 3102 阅读 · 1 评论 -
ip-纯真库:批量获取ip归属地
1、所需python包:from qqwry import QQwry #pip install qqwry-py3from IPy import IPimport socketimport threadingimport csvimport timeimport eventletfrom urllib.parse import urlparseq = QQwry()q.load_file('qqwry.dat')2、多线程处理函数:threads_ip(参数1,参数2)原创 2022-03-22 14:44:37 · 4280 阅读 · 0 评论 -
正则表达式介绍+一些简单应用
一、正则语句介绍语法 说明 表达式示例 完整匹配的字符串 一般字符 匹配自身 abc abc . 除换行符'\n'以外的任意字符 a.c abc \ 转义字符,是后一个字符改变原来的意思 a\.c a.c [...] 字符集,所有的特殊字符在字符集中都失去其原有的特殊含义 a[bcd]e abe ace ade \d 数字[0-9] a\dc a1c \D 非数字..原创 2022-03-19 15:09:08 · 1140 阅读 · 0 评论 -
大数据处理过程中知识汇总
背景:接到临时需求,要处理3000w的数据,分为3000个txt文件,而每个文件1万域名。问题:大量数据无法直接跑,太耗费时间,需首先清洗处理数据;思路:筛选出有ip的网站进一步看剩下多少域名1、服务器上32线程分别跑这3000个txt,生成3000个csv文件,里边保存四列数据2、python pandas 进行数据分析一、多线程编程知识思路:编程实现32线程跑2600个txt,先分list,每个list里边为32个str的数字,作为读取txt的路径以及生成的csv的文件名..原创 2022-03-17 17:53:00 · 939 阅读 · 0 评论 -
Python画一个中国地图玩玩
from pyecharts import Mapprovince_distribution = {'四川': 239.0, '浙江': 231.0, '福建': 203.0, '江苏': 185.0, '湖南': 152.0, '山东': 131.0, '安徽': 100.0, '广东': 89.0, '河北': 87.0, '湖北': 84.0, '吉林': 75.0}province = list(province_distribution1.keys()) num = list(pr...原创 2022-03-17 17:50:45 · 2980 阅读 · 2 评论 -
socket请求ip遇到的问题
请求ip及归属地代码:import socketq = QQwry()q.load_file('qqwry.dat')ip = socket.gethostbyname(url) #ipaddress = list(q.lookup(ip)) #归属地及服务商问题汇总:1、出现第三方包已安装但是import出错的解决方法:#注意python版本2和3的区别import syssys.path.append(r'/usr/local/lib/python3.6/s..原创 2022-03-17 17:48:40 · 3591 阅读 · 0 评论 -
如何基于Python的minhash数据包建一个简单的推荐系统
基于Python的datasketch 库打造一个简单的推荐系统原创 2022-03-17 16:34:16 · 918 阅读 · 0 评论 -
csv数据量很大怎么处理?-----分片处理技巧
问题:对于一个数据量很大的csv文件进行操作时,一次性全部读取出来再出来可以很耗时间和资源;解决方法:1、可以考虑分片读取(一片500或1000或者视情况而定),按照片数依次处理; 2、考虑多线程,将数据一次性读出,然后分多线程同时处理。# 分片处理csv文件def chunk_csv(file1, chunk_size=500): """ 输入csv:html_content_id 每500个id为一组,读库--查库--获得h...原创 2022-03-17 16:12:29 · 5620 阅读 · 0 评论