![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据分析
@小时候可乖了@
乐于分享 笔耕不辍
展开
-
用python做个爬虫app,爬取亚马逊评论
效果图:上代码:import threadingimport tkinter as tk # 使用Tkinter前需要先导入import randomimport reimport timeimport requestsfrom bs4 import BeautifulSoup# 第1步,实例化object,建立窗口windowwindow = tk.Tk()# 第2步,给窗口的可视化起名字window.title('Wellcome to wangning APP')#原创 2021-04-01 16:46:41 · 1053 阅读 · 3 评论 -
pyinstaller 打包文件 含图片引用 一起打包引用报错问题解决
项目结构主要是img目录下文件引用如果只打包py文件,则调用的图片无法显示需要将项目目录下的图片文件加载到打包文件的img路径下,命令如下pyinstaller --add-data="img/pic.gif;img" -w -i app.ico exeTest.py.py打包后的文件路径–add-data=“img/pic.gif;img” 的意思是将当前img目录的pic.gif文件打包到目标目录下的img目录下exeTest.py中引用图片路径的格式如下:image_file =原创 2021-03-31 16:28:37 · 690 阅读 · 0 评论 -
爬取shopee商品链接关键信息:无限次循环,直到爬取全部listing
from bs4 import BeautifulSoupfrom urllib.request import urlopenimport urllib3urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)import randomimport requestsimport timeimport jsonimport threadingimport mathbase=30base_url=''url原创 2020-12-11 14:28:10 · 3036 阅读 · 2 评论 -
python 动态规划算法实现求两个字符串的最长公共子字符串
如:有一个字符串 s1=‘test123456789’另外一字符串 s2=‘ttttest123456789es’需算法实现其最长公共子串为 test123456789 将其取出来该算法应用广泛,解决正则表达式无法解决的问题。如:某公司派送一批快递到国外,公司给出的地址是详细的,但是国外邮局给出地址是不全的,由于疫情影响,长时间未派送,单量巨大,邮局由于爆仓无法一一给出单号,只能给出他们的地址,让我们自行模糊匹配def substr(s1,s2): len1 = len(s1)+1 len2原创 2020-08-18 11:22:39 · 481 阅读 · 0 评论 -
记一个python处理excel数据清洗的实例
背景:公司2万多单订单被代理错误换单,只能根据地址根据相似度模糊匹配,传统的excel的vlookup等方法无法精准定位到准确的订单。一,安装pip包pip install xlrd二、导入包引入对象,进行数据清洗import xlrdbook = xlrd.open_workbook('d:/test.xlsx')sheet1 = book.sheet_by_name('代理数据')sheet2 = book.sheet_by_name('内部数据') tag = 1f原创 2020-08-13 15:16:46 · 2075 阅读 · 0 评论 -
Python __call__概述
凡是可以把一对括号()应用到某个对象身上都可称之为可调用对象,判断对象是否为可调用对象可以用函数 callable。(我们平时自定义的函数、内置函数和类都属于可调用对象)允许一个类的实例像函数一样被调用。这意味着你可以定义 call 为其他你想要的函数。举例:class Entity: def __init__(self,x,y,size): self.x,self.y=x,y self.size = size def __call__(self,x原创 2020-06-20 08:40:52 · 115 阅读 · 0 评论 -
记一个python的URL拼接的方法
背景:我们从接口请求数据或者爬取网页数据时候,经常要自己各种形式拼接url,简单的字符串+ 已经不能满足需求import urllib.parseurl = 'http://www.baidu.com/index.html'data = { 'name':'bowen', 'age':25, 'sex':'male',}lt = []for k,v in data.items(): lt.append(k+'='+str(v))# 这个是在for循环外面的,原创 2020-06-14 10:31:55 · 4353 阅读 · 0 评论 -
wish模拟登录并多线程爬取商品链接价格
场景:公司海关大批量扣货,需紧急爬取该批货物价格import requestsfrom bs4 import BeautifulSoupimport reimport timeimport threadingurl1 = 'https://www.wish.com/api/email-login'header = {"User-Agent": "Mozilla/5.0 (Wind...原创 2020-03-13 09:56:31 · 392 阅读 · 0 评论 -
python调用baidu-aip识别图片文字
文字api调用参考资料:https://ai.baidu.com/ai-doc/OCR/Dk3h7yf8m开发者平台页面:https://console.bce.baidu.com/ai开发者平台找:总览-产品服务-人工智能-文字识别上代码from aip import AipOcrfrom PIL import ImageAPP_ID = '18550549' #在百度自己的开发者...原创 2020-02-22 17:51:55 · 1171 阅读 · 0 评论 -
python爬虫模拟登录网页:登录wish
wish登录页面(https://www.wishpost.cn/welcome/#/login?next=)是js写的,在上面找登录链接很麻烦,直接故意写错登录账号和密码获得登录链接上代码import requestsurl1 = 'https://www.wishpost.cn/api/login'url2 = 'https://www.wishpost.cn/choose-cha...原创 2020-02-22 12:00:30 · 1222 阅读 · 0 评论 -
python爬虫模拟登录网页:登录豆瓣网
登录账号都是post请求,我们第一反应是从源码中找登录表单的action属性但有些页面或登录组件是js脚本得通过故意错误登录后查看真正发送post请求的链接上代码:import requestsurl1 = 'https://accounts.douban.com/j/mobile/login/basic'url2 = 'https://www.douban.com/'header ...原创 2020-02-22 11:37:49 · 1451 阅读 · 0 评论 -
python爬虫模拟登录网页
import urllib.parseimport urllib.requestfrom http import cookiejarfrom io import BytesIOimport gzip# 通过cookieJar()类构建一个cookieJar()对象,用来保存cookie的值cookie = cookiejar.CookieJar()# 通过HTTPCookie...原创 2020-02-20 10:33:20 · 1644 阅读 · 0 评论 -
python多线程
python多线程文章目录python多线程初始案例主线程何时结束join()阻塞共享变量锁初始案例import threadingimport timedef listen_music(name): while True: time.sleep(1) print(name,"正在播放音乐")def download_music(name):...原创 2020-02-14 18:10:53 · 140 阅读 · 0 评论 -
Scrapy实战案例
前言:网上多案例链接都无效,本篇为有效案例(如果链接失效,请留言笔者)笔者将第一时间更新。本篇非入门案例,如果想看入门案例,请看笔者的scray学习一二三的案例(talk is cheap,show you code right now)项目结构该爬虫作用是从网站爬取《百年孤独》这个长篇小说xpathtest.py内容import scrapyfrom xpathtest.item...原创 2020-01-31 19:29:20 · 812 阅读 · 0 评论 -
python scrapy实例:爬取笔趣阁长篇电子书
python scrapy实例:爬取笔趣阁长篇电子书入门案例请看本人的scrapy学习一、二、三,本篇为进阶案例(网上有好多爬虫案例,但是80%都是无效的,大部分原因是原链接失效或者原网页发生改变,如果该实例失效,请读者留言告知,笔者定将第一时间更新)#item.py代码import scrapyclass YieldtestItem(scrapy.Item): # defin...原创 2020-01-29 10:43:00 · 724 阅读 · 0 评论 -
Scrapy爬虫框架学习(三)分页爬取并保存为json文件
Scrapy爬虫框架学习(三)分页爬取并保存为json文件继续用爬虫框架学习框架一中已有的项目,在spiders文件夹中新建dmoz_spider.py文件 下面代码为新建文件的内容import scrapyfrom tutorial.items import DmozItemclass DmozSpider(scrapy.Spider): name = "dmoz" s...原创 2020-01-28 11:28:33 · 603 阅读 · 0 评论 -
Scrapy爬虫框架学习(二)爬取内容导入csv
Scrapy爬虫框架学习(二)爬取内容导入csv继续用爬虫框架学习框架一中已有的项目,在spiders文件夹中新建dmoz_csv.py文件下面代码为新建文件的内容import scrapyimport csvimport codecsclass DmozSpider(scrapy.Spider): name = "dmoz2" start_urls = [ ...原创 2020-01-28 11:03:58 · 559 阅读 · 0 评论 -
Scrapy爬虫框架学习一
Scrapy爬虫框架学习(一)官方文档给出的例子爬取的网址失效,加上语法版本问题导致一些功能无法实现,我自己修正了一下,以让后人事倍功半,避免空耗时间。正文Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。Scrapy安装只需要pip install scrapy即可创建一个scrapy项目#在pyth...原创 2020-01-28 09:54:27 · 285 阅读 · 0 评论 -
python爬虫模块实战案例
看实例前需对urlopen、urlretrieve、Beautifulsoup、requests、urllib模块提前熟悉,另外需对html、css有一定了解原创 2020-01-23 22:02:11 · 181 阅读 · 0 评论 -
python实例100例精选50例(基于python3.7,数据分析方向)
分解质因数def cal(n): list = [] if not isinstance(n, int) or n<=2: return "not int or < 3" flag = 1 while flag: for i in range(2,int(n+1)): if n%i == 0: ...原创 2020-01-05 11:08:45 · 8138 阅读 · 0 评论