案例
流量猎手
这个作者很懒,什么都没留下…
展开
-
同义词替换,停词去除
# -*- coding: utf-8 -*-# 去重:①同义词去重,停顿词去掉 ②删除特殊符号 ③ 删除重复import refrom typing import Iterableimport timeimport jiebajieba.initialize()jieba.load_userdict('./stopword.txt')tongyici = { '梦见': ['梦到', '做梦'], '怎么': ['怎么样', '如何'], '男孩': ['男.原创 2020-12-25 16:27:15 · 654 阅读 · 0 评论 -
抓取百度相关词 - 简化版
# -*- coding: utf-8 -*-# 获取相关搜索内容from threading import Threadfrom queue import Queueimport requestsfrom lxml import etreeimport cssselectclass Baiduxg(Thread): def __init__(self,link,queue): super().__init__() self.queue = queu.原创 2020-12-17 12:18:16 · 168 阅读 · 0 评论 -
百度下拉关键词获取
# -*- conding:utf-8 -*-#https://www.baidu.com/sugrec?&prod=pc&from=pc_web&wd=%E5%87%8F%E8%82%A5from threading import Threadfrom queue import Queueimport requestsimport jsonfrom pymongo import MongoClientclass Xiala(Thread): def __ini.原创 2020-12-14 23:26:23 · 1226 阅读 · 0 评论 -
抓取页面,提取标题,内容,并插入dbmongo
存在的问题,在多线程抓取中,存在大量重复抓取链接,待解决# -*- coding : utf-8 -*-# ①获取url源代码 --② 获取标题,摘要(11:30~12:30) ③ 插入db数据库(17:00~18:00) ④ 村环获取所有链接,并插入数据库(19:30前) ⑤ 处理图片问题(回家解决并上传CSDN)from threading import Threadfrom queue import Queueimport requests,reimport timef原创 2020-12-09 14:39:57 · 106 阅读 · 0 评论 -
通过板砖案例实现多线程执行 - Thread,工人,搬砖案例
# -*- coding: utf-8 -*-from threading import Threadfrom queue import Queueimport time# 无论工人多,或工厂少,均先工厂完成后,工人才可以完成。通过che.put('abc')来进行判断,当砖长全部生产完后,工人才可以结束。class GongChang(Thread): # 继承Thread def __init__(self,name,num,qc): super().__in.原创 2020-11-18 17:38:59 · 513 阅读 · 0 评论 -
os 批量修改文件名
import os,redef f_rename(url): s1 = re.findall(r'(\d+\.\w*).*',url) s2 = ''.join(s1)+'.ev4' return s2def get_file(u): for item in os.listdir(u): item = os.path.join(u,item) if os.path.isdir(item): # isdir 判断当前文件夹存在 .原创 2020-11-07 22:23:11 · 136 阅读 · 0 评论 -
python 抓取页面url,标题
# -*- coding: UTF-8 -*-import requests,refrom urllib.parse import urljoindef download(url): headers = { 'Connection': 'keep-alive', 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53.原创 2020-11-05 22:54:20 · 767 阅读 · 0 评论