自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 jieba分词添加自定义词或者词典不生效的一种情况解决

jieba.load_userdict('***.txt') 也是同样的情况 要加高词频。当然 如果不想设置词性等内容 直接jieba.add_word('小米')也能拆分出来。jieba.cut('小米'). ---结果['小',‘米’]jieba.add_word('小米',1000,nn)jieba.cut('小米'). ---结果['小米’]jieba.add_word('小米',10,nn)通过尝试得出增加词频可以解决。

2023-07-07 17:49:46 1039 1

原创 jb.analyse.extract_tags参数allowPOS的问题

10,"nnn"). ----错误写法 词要一个一个加 我这里写一起了方便看,懂就行。或者是 再添加词和词性之前jieba是有一个定义 要先找到n 才能找到 nn/nnn。content='三星galaxys22系列和iphone14哪个耗电快怎么解决'首先没标注词性的时候词是n 然后才能找到nn/nnn 是一个包含关系。jb.add_word('三星',10,"nn")有不同意见的请评论区指教。

2023-07-06 11:45:00 172 1

原创 python 实现截图和发邮件

一、代替人工截图发送邮件 先上截图的代码 url 为待截取的网址,el为元素 下面__main__中会有 这里简单提一下el=browser.find_element_by_class_name("****") 检查元素找到要截取块的class_name, 这里()内的类名字要唯一 坑1:sc_hight=914. 这里的914是你截图工具上显示的坐标 ctrol+command+a...

2021-08-11 15:38:44 885 2

原创 dataframe 添加分组列

#设置切分区域listBins = [0, 10, 20, 30, 40, 50, 60, 500]#设置切分后对应标签listLabels = ['0','1','2','3','4','5','6']movie_s_pd['fenzu'] = pd.cut(movie_s_pd['danjia'], bins=listBins, labels=listLabels, include_lowest=True)labels 比bins 少1...

2021-04-23 13:47:39 317

原创 DataFrame 表关联 join

两个表 通过某一字段关联 f1:f2:f1.set_index('id').join(f2.set_index('id'))结果:

2021-03-18 15:10:00 284 1

原创 DataFrame对某一列中单元格的操作 map

会遇到dataframe中单元格既不是nan 又不是None 的 比如这种created_at catefirst 2020-04-01 取得这种catefirst为空的需要用到pd[(pd['catefirst'] == "")]这时候能把空值找出如果是对这一列来操作的话 处理空值 填充为0 或者别的 可以用map函数#只对为空的或者为None的单元格替换为“无” 其余有正常值的保持不变def catefirstmap(x): if x=...

2021-03-18 13:29:54 662

原创 pandas 查询交集 ~的用处

即购买实体 又购买虚拟的user_idall_gouwu.query('type=="实体"')[all_gouwu['user_id'].isin(all_gouwu.query('type=="虚拟"')['user_id'])]只购买实体的user_idall_gouwu.query('type=="实体"')[~all_gouwu['user_id'].isin(all_gouwu.query('type=="虚拟"')['user_id'])]...

2021-03-01 11:37:12 88

原创 DataFrame 取几列的两种方法

pandas DataFrame中取几列 :1、通过列名查询 DataFrame名.loc[:,('列名','列名',·············)]。2、通过列位置查询 DataFrame名.iloc[:,[1,4,6,·············]]。

2021-02-04 16:28:19 20844

原创 pandas中对于条件筛选具有日期类型的数据的方法

1.类似于这种的数据 要想选择日期大于某一日期 之前百度了很多文章但是 他们用truncate 这种只有日期在索引位置的时候才能用 其他的方法也是很繁琐的 。2.但是如果你的日期不是索引 并且有很多重复的数据上述方法并不能用 , 如果你想选择大于2020-09-01日期的数据 方法是 转换日期 列=pd.to_datetime(列) 列>pd.Timestamp('...

2021-01-29 13:54:38 1254 3

原创 python 用于列表拼接int型报错的解决

一般会这样想:但是是报错a_list=[10,20,30,40]b_list=['a','b']for i in range(0,len(a_list)): print(b_list+a_list[i])正确写法:只需要一点 用上切片就oka_list=[10,20,30,40]b_list=['a','b']for i in range(0,len(a_list)): print(b_list+a_list[i:i+1])...

2020-08-06 14:05:55 826

原创 关于hive的时间与时间戳unix_timestamp,from_unixtime

1.unix_timestamp()无参数 顾名思义 unix 系统时间戳 即:当前系统时间, unix_timestamp(一个参数) 转换时间格式为时间戳 必须为'2019-08-15 16:40:00'格式 select unix_timestamp('2019-08-15 16:40:00') --1565858400 unix_timestamp(两个参数) 将指定时间字符串转换为时间戳 s...

2020-07-27 11:34:17 476

原创 excel找到某字符最后出现的位子并取前面的内容

=LEFT(D1,LEN(D1)-LEN(TRIM(RIGHT(SUBSTITUTE(D1,"指定字符",REPT(" ",LEN(D1))),LEN(D1))))-2)

2020-07-01 15:13:08 769

原创 获取dataframe中的某几个值 对应的索引

取出特定条件 转listch_index=list(userItem[userItem[‘***']==nature]['客户姓名'])用isin 找寻seriesItem.loc[:,'客户姓名'].isin(ch_index)].index

2020-06-03 11:30:23 3029

原创 调用百度ai接口批量读取图片上的文字(代码没有优化,不喜勿喷,部分需要隐藏)

欢迎评论席交流学习 原创内容import requestsimport base64import jsonimport pandas as pdimport os#百度申请的 百度智能云上找到对应的文字识别(要找对)创建应用,记得勾选需要的,然后记下下面的3个keyAPP_ID=''API_KEY=''SECRET_KEY=''#获取acce...

2020-04-30 16:17:28 340

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除