python
小东升职记
人生陆远只有忘的甘静才会有江莱。
展开
-
搜狗微信采集
10月29日搜狗微信改版了,无法通过搜索公众号名字获取对应文章了,不过通过搜索主题获取对应文章还是可以的目的:获取搜狗微信中搜索主题返回的文章。 涉及反爬机制:cookie设置,js加密。按照正常的采集流程,此时按F12打开浏览器的开发者工具,利用选择工具点击列表中文章标题,查看源码中列表中文章url的所在位置,再用xpath获取文章url的值,也就是这个href的值,为避免混...原创 2019-11-26 17:40:45 · 1758 阅读 · 1 评论 -
python 词云图
# 图片加载使用from PIL import Image# 将图片转换为二进制数据流import numpy as np# jieba分词import jieba# 绘图import matplotlib.pyplot as plt# 词云, 图片处理器from wordcloud import WordCloud, ImageColorGeneratorclass W...原创 2019-09-20 16:54:20 · 841 阅读 · 0 评论 -
python 根据需求灵活爬取唯品会商品动态数据
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWaitf...原创 2019-09-20 16:59:43 · 1010 阅读 · 0 评论 -
Charles解析https,unknown错误解决办法
之前一直使用Charles,抓包https的没有问题,enable ssl的时候出现unknown消息,disable ssl的时候出现乱码,解决办法:在设置–>通用–>关于本机–>证书信任设置把里面的那个Charles的证书设置为信任就可以了...原创 2019-09-24 09:45:14 · 2321 阅读 · 0 评论 -
python 爬京东商品信息
from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byi...原创 2019-09-24 14:08:40 · 515 阅读 · 0 评论 -
股票信息东方财富网爬数据
import timeimport requestsimport jsonclass EastMoney(object): def __init__(self): # 套查询的页码 self.page = 1 # 允许每页显示的数据条数 self.count = 3820 # 当前向服务器发起请求...原创 2019-09-24 16:38:07 · 1282 阅读 · 1 评论 -
python 多线程爬虫(京东iPhone)
# 多线程模块import threading# 队列模块import queueimport requestsfrom lxml import etreeimport timeimport randomimport jsonimport pymongo# 采集线程数concurrent = 3# 解析线程数conparse = 3class Crawl(thr...原创 2019-09-25 15:26:41 · 751 阅读 · 0 评论 -
scrapy爬取京东的数据
import scrapyfrom scrapy import Fieldclass JdItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrapy.Field() # 标题 price = scrapy.F...原创 2019-09-27 14:02:04 · 1713 阅读 · 0 评论 -
scrapy 爬取前程无忧让找工作变得轻而易举
# -*- coding: utf-8 -*-import scrapyfrom qcwy.items import QcwyItemfrom urllib import parseimport reclass A51jobSpider(scrapy.Spider): name = '51job' allowed_domains = ['51job.com'] ...原创 2019-09-30 15:35:17 · 653 阅读 · 0 评论 -
python学习方向
Python学习路线一:Python基础必学知识:【Linux基础】【Python基础语法】【Python字符串】【文件操作】【异常处理】【Python面向对象】【项目实战】路线讲解:该路线循序渐进,科学合理,帮助学习者建立正确的编程思想,具备基本的编程能力;Python学习路线二:Python高级编程必学知识:【Python平台迁移Linux】【Python常用第三方库】【Pyt...原创 2019-09-17 10:04:21 · 555 阅读 · 0 评论 -
python 内置函数
https://www.runoob.com/python/python-built-in-functions.html转载 2019-09-16 14:59:18 · 149 阅读 · 0 评论 -
python 读取特定TXT内容将新增文件上传到库
原创 2019-07-05 14:11:27 · 479 阅读 · 0 评论 -
python操作Redis的一些判断和操作方法
key操作string操作list操作set操作Sorted Set操作Hash操作原创 2019-06-18 14:59:36 · 1264 阅读 · 0 评论 -
jieba分词
# -*- coding: utf-8 -*-from distutils.core import setupLONGDOC = """jieba=====“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built tobe the best Pyt...原创 2019-06-24 18:13:22 · 148 阅读 · 0 评论 -
jieba完美介绍
jieba========“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.- _Scroll down for English doc...原创 2019-06-24 18:14:45 · 388 阅读 · 0 评论 -
python MD5文件校验
根据文件块长度,依次获取文件内容读入内存,通过update()逐次更新校验值import hashlibdef md5sum(fname): """ 计算文件的MD5值 """ def read_chunks(fh): fh.seek(0) chunk = fh.read(8096) while chu...原创 2019-07-03 13:27:03 · 850 阅读 · 0 评论 -
python 判断文件是否是特定后缀文件
def endWith(s, *endstring): arr = map(s.endswith, endstring) if True in arr; return Ture else : return False原创 2019-07-03 13:31:48 · 1576 阅读 · 0 评论 -
python 将特定路径下大于1G的文件拷贝
from shutil import copyfiledef list_files(files,file_dir,linux_dir): for ls_file in files: yn=os.path.exists(linux_dir + ls_file) if not yn: if size(file_dir _ ls_file) >= 1000.00: ...原创 2019-07-03 13:37:12 · 368 阅读 · 0 评论 -
python教程
https://www.liaoxuefeng.com/wiki/1016959663602400/1017806472608512http://c.biancheng.net/python/class_object/原创 2019-07-09 17:55:46 · 128 阅读 · 0 评论 -
python 映射目录下新增文件实时GPG解密到本地监控目录下
原创 2019-07-05 14:09:22 · 198 阅读 · 0 评论 -
python redis3.0 更新踩坑 zadd zincrby
在维护代理池时报错1:zincrby(REDIS_KEY,proxy,-1)redis.exceptions.ResponseError: value is not a valid float查看文档后发现zincrby()跟新为zincrby(self, name, amount, value)解决方案: zincrby(REDIS_KEY,-1,proxy)...原创 2019-06-14 11:05:04 · 1001 阅读 · 0 评论