8/6
腾讯今天开始校招了,准备投简历~~
新工作:
- ps axf | grep python得到的是有包含python字符串的进程,S,SL都是进程状态
- 现阶段进程调度使用进程锁,逻辑锁
- 后面进程通信要用消息队列
- 将地址解析表的community字段的英文,数字去掉,用正则findall(r"[^a-z0-9A-Z]", string)
- 昨天做的产品名解析,除了去重,还要有的产品是包含关系,需要保留更加细分的领域,比如“套餐”,“包月套餐”,我们要保留“包月套餐”。有个技巧性的实现方案,就是将产品列表按字符串长度来排序,长的在前面,然后再info中找到这个产品名就replace一下,后面的套餐这些的就在info中找不到了
- sorted(list, key=functools.cmp_to_key(func))或者list.sort(key=lambda x:len(x))
- 从大量的complaint_info分析出新的产品(没有出现在产品表中的产品),完全走规则的话,个人觉得要先提取出一些高频有效单词,在对高频有效单词进行拼接,可以进行二次清洗(比如将高频单词拼接)再拿去和大文本complaint_info去找
- pandas的用法很多,还需要加强啊,其实我觉得pandas就是用另一种方式把SQL的功能实现,而且还有SQL没有的功能