weixin_42653353-CSDN博客

原创 jieba分词添加自定义词或者词典不生效的一种情况解决

jieba.load_userdict('***.txt') 也是同样的情况要加高词频。当然如果不想设置词性等内容直接jieba.add_word('小米')也能拆分出来。jieba.cut('小米'). ---结果['小'，‘米’]jieba.add_word('小米',1000,nn)jieba.cut('小米'). ---结果['小米’]jieba.add_word('小米',10,nn)通过尝试得出增加词频可以解决。

2023-07-07 17:49:46 1039 1

原创 jb.analyse.extract_tags参数allowPOS的问题

10,"nnn"). ----错误写法词要一个一个加我这里写一起了方便看，懂就行。或者是再添加词和词性之前jieba是有一个定义要先找到n 才能找到 nn/nnn。content='三星galaxys22系列和iphone14哪个耗电快怎么解决'首先没标注词性的时候词是n 然后才能找到nn/nnn 是一个包含关系。jb.add_word('三星',10,"nn")有不同意见的请评论区指教。

2023-07-06 11:45:00 172 1

原创 python 实现截图和发邮件

一、代替人工截图发送邮件先上截图的代码 url 为待截取的网址，el为元素下面__main__中会有这里简单提一下el=browser.find_element_by_class_name("****") 检查元素找到要截取块的class_name, 这里（）内的类名字要唯一坑1:sc_hight=914. 这里的914是你截图工具上显示的坐标 ctrol+command+a...

2021-08-11 15:38:44 885 2

原创 dataframe 添加分组列

#设置切分区域listBins = [0, 10, 20, 30, 40, 50, 60, 500]#设置切分后对应标签listLabels = ['0','1','2','3','4','5','6']movie_s_pd['fenzu'] = pd.cut(movie_s_pd['danjia'], bins=listBins, labels=listLabels, include_lowest=True)labels 比bins 少1...

2021-04-23 13:47:39 317

原创 DataFrame 表关联 join

两个表通过某一字段关联 f1:f2:f1.set_index('id').join(f2.set_index('id'))结果：

2021-03-18 15:10:00 284 1

原创 DataFrame对某一列中单元格的操作 map

会遇到dataframe中单元格既不是nan 又不是None 的比如这种created_at catefirst 2020-04-01 取得这种catefirst为空的需要用到pd[(pd['catefirst'] == "")]这时候能把空值找出如果是对这一列来操作的话处理空值填充为0 或者别的可以用map函数#只对为空的或者为None的单元格替换为“无” 其余有正常值的保持不变def catefirstmap(x): if x=...

2021-03-18 13:29:54 662

原创 pandas 查询交集～的用处

即购买实体又购买虚拟的user_idall_gouwu.query('type=="实体"')[all_gouwu['user_id'].isin(all_gouwu.query('type=="虚拟"')['user_id'])]只购买实体的user_idall_gouwu.query('type=="实体"')[~all_gouwu['user_id'].isin(all_gouwu.query('type=="虚拟"')['user_id'])]...

2021-03-01 11:37:12 88

原创 DataFrame 取几列的两种方法

pandas DataFrame中取几列：1、通过列名查询 DataFrame名.loc[:,('列名','列名',·············)]。2、通过列位置查询 DataFrame名.iloc[:,[1,4,6,·············]]。

2021-02-04 16:28:19 20844

原创 pandas中对于条件筛选具有日期类型的数据的方法

1.类似于这种的数据要想选择日期大于某一日期之前百度了很多文章但是他们用truncate 这种只有日期在索引位置的时候才能用其他的方法也是很繁琐的。2.但是如果你的日期不是索引并且有很多重复的数据上述方法并不能用，如果你想选择大于2020-09-01日期的数据方法是转换日期列=pd.to_datetime(列) 列>pd.Timestamp('...

2021-01-29 13:54:38 1254 3

原创 python 用于列表拼接int型报错的解决

一般会这样想：但是是报错a_list=[10,20,30,40]b_list=['a','b']for i in range(0,len(a_list)): print(b_list+a_list[i])正确写法：只需要一点用上切片就oka_list=[10,20,30,40]b_list=['a','b']for i in range(0,len(a_list)): print(b_list+a_list[i:i+1])...

2020-08-06 14:05:55 826

原创关于hive的时间与时间戳unix_timestamp，from_unixtime

1.unix_timestamp（）无参数顾名思义 unix 系统时间戳即：当前系统时间， unix_timestamp(一个参数) 转换时间格式为时间戳必须为'2019-08-15 16:40:00'格式 select unix_timestamp('2019-08-15 16:40:00') --1565858400 unix_timestamp(两个参数) 将指定时间字符串转换为时间戳 s...

2020-07-27 11:34:17 476

原创 excel找到某字符最后出现的位子并取前面的内容

=LEFT(D1,LEN(D1)-LEN(TRIM(RIGHT(SUBSTITUTE(D1,"指定字符",REPT(" ",LEN(D1))),LEN(D1))))-2)

2020-07-01 15:13:08 769

原创获取dataframe中的某几个值对应的索引

取出特定条件转listch_index=list(userItem[userItem[‘***']==nature]['客户姓名'])用isin 找寻seriesItem.loc[:,'客户姓名'].isin(ch_index)].index

2020-06-03 11:30:23 3029

原创调用百度ai接口批量读取图片上的文字（代码没有优化，不喜勿喷，部分需要隐藏）

欢迎评论席交流学习原创内容import requestsimport base64import jsonimport pandas as pdimport os#百度申请的百度智能云上找到对应的文字识别（要找对）创建应用，记得勾选需要的，然后记下下面的3个keyAPP_ID=''API_KEY=''SECRET_KEY=''#获取acce...

2020-04-30 16:17:28 340

weixin_42653353的博客