![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
后青春诗ing
这个作者很懒,什么都没留下…
展开
-
Python3 将数据写入CSV文件
一、前言在工作中,总会有一点小的数据处理,需要写到CSV文件里边,今天稍加记录一下,以后直接拿来用。二、概念csv是一种通用的、相对简单的逗号分隔值文件格式,是一种用来存储数据的纯文本文件;纯文本意味着CSV文件是一个字符序列,不含必须像二进制数字那样被解读的数据。1、纯文本,使用某个字符集,比如ASCII、Unicode、EBCDIC或GB2312;2、由记录组成(典型的是每行一条记录);3、每条记录被分隔符分隔为字段(典型分隔符有逗号、分号或制表符;有时分隔符可以包括可选的空格);4、每条原创 2021-04-13 14:18:49 · 4584 阅读 · 1 评论 -
labelImg ZeroDivisionError: float division by zero 问题定位和解决方案
一、前沿labelImg的使用和安装这里不过多讲解,网上一堆教程。二、问题以及解决方案2.1 问题如下:Traceback (most recent call last): File "g:\mytoolsinstall\anaconda3\lib\site-packages\labelImg\labelImg.py", line 1250, in openNextImg self.saveFile() File "g:\mytoolsinstall\anaconda3\lib\s原创 2020-05-19 14:47:55 · 24748 阅读 · 1 评论 -
Python-基于布隆过滤器下URL去重实例。
写这篇文章的目的主要是总结一下目前知道的去重方法。文章有点杂乱看着参考。常见URL过滤方法第一,基于磁盘的顺序存储。这里,就是指把每个已经下载过的URL进行顺序存储。你可以把全部已经下载完成的URL存放到磁盘记事本文件中。每次有一个爬虫线程得到一个任务URL开始下载之前,通过到磁盘上的该文件中检索,如果没有出现过,则将这个新的URL写入记事本的最后一行,否则就放弃该URL的下载。这种方式几...原创 2018-11-08 13:01:31 · 968 阅读 · 0 评论 -
python--多进程在网络爬虫中的具体应用
关于写这篇是看了好久别人的博客,有了一点点的认知并且具体应用到自己以后网络爬虫中,所以先分享一下吧,以后自己再看看。<转载> 为什么在Python里推荐使用多进程而不是多线程?经常我们会听到老手说:“Python下多线程是鸡肋,推荐使用多进程!”,但是为什么这么说呢? 要知其然,更要知其所以然。所以有了下面的深入研究: ...原创 2018-10-27 14:43:45 · 488 阅读 · 0 评论 -
python--selenium有关谷歌浏览器、火狐浏览器、IE浏览器的配置。
因为一些插件版本原因 有的软件只能支持特定的浏览器 所以说自己做了几个浏览器的插件抓取以备后边自己可能会用到。Google浏览器的实现对应版本下载:https://blog.csdn.net/yoyocat915/article/details/80580066 # 参考版本【转载yoyocat915】http://chromedriver.storage.googleapis.com...原创 2018-10-27 10:07:46 · 429 阅读 · 0 评论 -
python-西刺代理的获取
写这个博客的原因是又用到了代理 但是公司没有购买代理 没办法只有爬取一些免费的代理 虽然不太稳定 凑合着用吧,为了防止以后代码在重写一遍这里把代码直接放在博客上以备后用。import requestsfrom retry import retryfrom scrapy import Selector@retry(8)def get_agent(url): """ 获取...原创 2018-10-24 19:08:45 · 422 阅读 · 0 评论 -
Python--使用线程--批量文件的移动 以及FTP共享自己文件夹
在写代码中 偶尔会遇到一些脚本和方法,有时候这些脚本程序都是用到再写。这无疑浪费了自己很多时间,自己写过一次为了防止代码的丢失不如放在博客上记录一下,如果再用到那边直接用。第一个 小知识点os模块的具体应用&amp;amp;amp;amp;amp;amp;quot;&amp;amp;amp;amp;amp;amp;quot;&amp;amp;amp;amp;amp;amp;quot;我们知道有时候需要大批的文件从一个文件家转移到另外一个文件夹下,可原创 2018-11-14 21:21:26 · 3187 阅读 · 4 评论 -
pip常用命令
简单博客记录导出Python环境安装包pip freeze > my_packages.txt导入Python环境安装包pip install -r my_packages.txt原创 2019-09-12 20:20:56 · 208 阅读 · 0 评论 -
Python_读取PDF文件内容
涉及到一些PDF文件中的读取,特地去网上简单学习一下并记录下来大神链接: https://www.cnblogs.com/wj-1314/p/9429816.html自己简单代码的分享以边自己后边用到from pdfminer.converter import PDFPageAggregatorfrom pdfminer.pdfparser import PDFParser, PDFDo...原创 2019-05-13 09:32:35 · 7736 阅读 · 2 评论 -
pyecharts_简单学习和记录
简介:Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。特性:一:简洁的 API 设计,使用如丝滑般流畅,支持链式调用二:囊括了 30+ 种常见图表,应有尽有三:支持主流 Notebook 环境,Jupyter No...原创 2019-05-06 17:34:21 · 289 阅读 · 0 评论 -
Windows10下 Python_Appium的安装与简单使用
一、前言这两天趁着空闲学习 Appium的使用想着爬取一些移动端的app的消息,搭建环境会把你搞得焦头烂额的…二、参考文章:作者:小帅b 学习python的正确姿势链接地址:https://mp.weixin.qq.com/s?__biz=MzU2ODYzNTkwMg==&mid=2247484358&idx=1&sn=23e920d7a8d43dafd7607c...原创 2019-04-27 17:38:46 · 476 阅读 · 0 评论 -
pyhon--批量复制、移动文件或者文件夹
前沿:在之前的博客分享中,已经分享了 Python–使用线程–批量文件的移动 关于两层文件的移动和复制,但是如果我们想多层的复制例如:D:\department_data_management 里边的而且包含很多曾文件夹,我们想原封不动的复制到F盘,此时怎么搞?今天就分享一下代码,使用技术:线程+队列。...原创 2019-04-12 11:49:47 · 334 阅读 · 0 评论 -
Python--简单 Js 破解。
本篇是针对 国家会展中心的访问量,以及百度企业信用网站的简单小破解,博客仅作为学习,不支持商用。谢谢配合。1. 开胃菜 会展中心访问量目标网址:http://www.eshow365.com/zhanhui/html/127989_0.html需要解决问题:实际我们在请求的时候,这个访问量并不在源码中,可看源码如下图:可以看到其中<span id="txtClicks" st...原创 2019-01-28 20:10:24 · 5285 阅读 · 11 评论 -
Python爬虫---猫眼字体反爬
在做过汽车之家论坛的字体反爬过后,信心稍微增长点,那么索性找点字体文件反爬的网址,猫眼便是一个不错的网址,那么便开始搞起来。目标网址https://piaofang.maoyan.com/?ver=normal很明显和汽车之家的论坛是字体的加密,那么按照之前的步骤走:第一步:找到字体文件,下载下来。第二步:通过Font Creator工具读取下载好的字体文件。第三步:按顺序拿到各个...原创 2019-01-19 09:40:41 · 2119 阅读 · 2 评论 -
python tornado 图片base64、流的 两种方式上传到前端界面。
写这篇文章是因为涉及到大量的图片上传,两种不通的方式和其效果,我们知道简单的图片上传我们可以借助于,tornado自带的模板来上传,今天暂时不用模板来上传,代码如下:base64上传前端显示图片代码结构如下:只是简单的测试莫嫌弃代码low。前端界面代码base64.html 的展示&amp;lt;!DOCTYPE html&amp;gt;&amp;lt;html&amp;gt;&amp;lt;he原创 2019-01-17 20:05:35 · 4712 阅读 · 1 评论 -
Python-asyncio+aiohttp 异步库的学习
之前写过这样的爬虫,趁着今天晚上又重新学习了一波,参考大佬的文章。原创 2018-11-26 19:39:39 · 1776 阅读 · 5 评论 -
python-简单JavaScript加密的破解
目标:作者在进行模拟登陆时候发现原来简单的密码返回值是却看不懂了,考虑到这种情况应该是进行了加密,这时候如何破解加密的代码尤为重要。 作者提交的密码是:123456qq.com //仅仅是举例104|122|51|49|53|56|49|51,//输出加密过后的密码今天笔者分享是一个简单的登陆时候密码的加密,这里直接分享加密的js代码以及破解过程,如果你不会寻找js代码,那么你就去看我...原创 2018-08-24 19:02:00 · 1468 阅读 · 3 评论 -
Windows10 安装 pytesseract 出错 Error opening data file Tesseract-OCR\tessdata/eng.traineddata
首先表明自己出现的错误:D:\BuildFolder\tesseract-ocr\testing>tesseract-dlld.exe eurotext.tif eurotextError opening data file ./tessdata/eng.traineddataPlease make sure the TESSDATA_PREFIX environment var...原创 2018-08-21 15:39:51 · 8835 阅读 · 16 评论 -
python-爬取贴吧的时候表情的处理。
今天笔者分享一下使用scrapy爬取百度贴吧的时候遇到的表情问题,一直未解决因为表情入库的问题再网上查了好久,从网上看到修改数据库字段的编码格式,但是一直修改的有问题,最终修改了好久才得解决,今天分享下来方便其他人如果遇到这类的问题。python2的解决方法直接上代码如下:def filter_emoji(desstr, restr=''): ''' 过滤表情 ...原创 2018-08-20 19:50:33 · 1360 阅读 · 0 评论 -
python2 编码问题小解决;sys;unicode-escape
今天作者想要分享的是自己在爬取网站过程中一些简单的编码问题,当然说是简单问题作者也是搜索了很久,今天分享下来方便以后自己在遇到这类问题更好的解决。 环境:python2 目标网站种的内容如下图: 从爬取出来的代码来看这些字段并没有乱码,但是啊在作者进行提取的过程种发现提取到的内容并不是正常的内容,作者这里简单分享一下自己。后续会持续分享一些编码的问题。信息的提取:car_re...原创 2018-08-20 14:31:45 · 1533 阅读 · 0 评论 -
python __爬虫__线程池的应用。
想必搞爬虫的都知道,有时候需要爬取的网站量比较大,像大众点评或者一些大的电商网站,我们爬取大量的网站有时候速度也是必须的,此时笔者在网上看到很多加线程池来提高速度的方法,都没有添加到实际的爬虫例子,仅仅是比较一下添加线程池和没有添加的时候函数的调用的速度。这里笔者分享一下实际运用到爬虫代码来提高速度的方法。环境:python2.7 因为作者这里是用的实际的工作代码,牵涉到时间的循环,这里也分...原创 2018-08-13 23:22:54 · 475 阅读 · 0 评论 -
python_SDK 阿里云对象存储服务 参考阿里云手册
本文主要是分享自己所用来文件上传到阿里云上的应用,是自己的一点简单代码的分享,供自己以后学习用。首先是安装:https://help.aliyun.com/document_detail/31947.html?spm=a2c4g.11186623.4.2.fksCNQ这里直接推荐阿里云的安装手册,非常齐全。这里笔者直接采用的是pip安装在这里就不进行分享了。文件的一些简单应用,这里笔...原创 2018-08-13 22:48:31 · 2223 阅读 · 0 评论 -
windows10 下安装Scrapy Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++出错
今天介绍的是作者在安装scrapy的时候报错,错误即: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools反反复复在网上找了好多教程,最...原创 2018-08-15 13:02:10 · 533 阅读 · 0 评论 -
scrapy-设置请求头
当我们大量使用scrapy 请求一个网站的时候我们知道scrapy默认的请求头是: 可以看到默认的请求头就是scrapy,这样就很容易导致浏览器封掉的可能,这个时候我们就需要给请求加一个请求头来模拟浏览器,一般的可以这样做: 可以直接在spider文件中添加custom_settings 这个设置,代码如下:custom_settings = { 'LOG_LEVEL'...原创 2018-08-02 19:43:55 · 24905 阅读 · 7 评论 -
python模拟-食行生鲜登陆
目标路径 : https://wechatx.34580.com/mart/#/sign/in 需要解决的问题: 当我们登陆的时候会发现密码进行了加密,这个时候怎么找到加密的函数尤为重要,这里为大家进行简单的分析。第一步: 打开fiddler抓包工具; 打开浏览器,建议清除cookie和缓存; 输入账号和密码,进行登陆; ...原创 2018-08-06 17:19:58 · 600 阅读 · 0 评论 -
python - RSA加密
今天笔者想要分享的是另外一种加密,python中的RSA加密,当我们不用selenium和Chromedriver的时候模拟登录问题常常是我们的一大难关,因为登录的时候可能会遇到一些加单的账号或者密码加密,最常见的也就是md5加密了,sha1加密了,bs64加密了诸如此类,今天笔者想要分享的就是登录的时候数据被加密的时候一种分析解密的情况。 第一步:当我们通过提交过数据表单的时候,通过fiddl...原创 2018-07-31 22:47:35 · 8183 阅读 · 2 评论 -
python-RSA加密之JavaScript进阶
目标:今天笔者分享的是一些加密函数的寻找以及解决方法。环境 :Python2.7 声明:本篇文章是基于笔者之前分享的RSA加密的基础上进一步进阶,分享一些JavaScript的解析。 目标网站:https://qiye.ymm56.com 企业版的运满满,当然这个登录时做了Ajax判断如果账号或者密码不正确是无法进行登录,所以对于大家想要实践一下的愿望是不能满足你们了。账号和密码这里不提供...原创 2018-08-21 23:17:02 · 1235 阅读 · 0 评论 -
CSV快速写Json格式的
最近因为工作太忙了,没有来得及及时更新自己的博客,自己这段时间也没有搞新技术,一直在修改公司的代码错误,真是苦逼呀,修改过程中也有点收获。分享这篇文章是自己工作中总结的怎样可以从大的json格式的文章中选取自己想要的字段。因为贷后所需要的发沉托运的字段太多了,如果一个个的查找浪费时间和浪费精力。 目标字段,这里首先分享一下json格式的字段如下:json_dict = { ...原创 2018-09-15 10:45:06 · 1448 阅读 · 0 评论 -
数据以元组的方式存入MySQL数据库
因为工作中涉及到存入MySQL数据库,今天作者在这里分享一个简单的MySQL多条插入元组的方法,直接上代码了:# coding=utf-8try: import MySQLdb as mysqldb from MySQLdb import InternalErrorexcept ImportError: import pymysql as mysqldb ...原创 2018-09-15 11:03:21 · 4944 阅读 · 0 评论 -
Python+selenium+Chromedriver+代理爬取Google图片
找工作忙到现在,现阶段在一家人工智能公司,人工智能公司确实同事都是大佬,给讲解好多有关深度学习有关的知识,奈何本人菜鸡学的很渣,因为公司人工智能这块工作需要的图片比较多,而我目前只懂爬虫所以现阶段公司的爬虫这块是我在负责抓取图片。当然百度图片很好抓取自己也写了一个很好的代码抓取如有需要可以留言作者这里提供完整的代码,就不在这里分享百度图片的抓取了。而Google图片的抓取作者这里还是想分享一下的,...原创 2018-10-19 00:00:44 · 5506 阅读 · 17 评论 -
scrapy-巴巴物流网站信息采集。
这里作者就不讲其他文件的配置,直接上代码吧,如下:# coding=utf-8import scrapyimport reimport timefrom cn56_net.items import Cn56NetItemclass WlzxSpider(scrapy.Spider): name = 'wlzx' allowed_domains = ['babasupe...原创 2018-09-28 21:33:05 · 217 阅读 · 0 评论 -
mysql-sqlalchemy创建表
这是作者在网上看到的方法,可以代码直接创建表,所以这里作者分享一下,以便于后续自己的运用,代码如下:from datetime import datetimefrom sqlalchemy import Column, String, Integer, Text, create_engine, TIMESTAMPfrom sqlalchemy.orm import sessionmaker...原创 2018-09-28 21:27:11 · 737 阅读 · 0 评论 -
scrapy-爬取百度贴吧之物流内容。
今天作者分享的是工作中所做的舆情系统,爬取百度贴吧中的各个物流贴吧网站的信息,scrapy用的不是特别多可能代码会有点low,希望大家可以见谅哈。直接上代码如下:items文件中的信息:class LouzhuItem(scrapy.Item): """记录楼主信息""" lzhu_name = scrapy.Field() # 楼主名字 lzhu_id原创 2018-09-28 21:22:10 · 377 阅读 · 0 评论 -
requests.exceptions.InvalidHeader和伪造headers添加'Content-Type'的重要性
第一个问题:今天在编写爬虫的时候在写headers时候:headers = { "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0",}“Use...原创 2018-09-20 18:18:04 · 4414 阅读 · 0 评论 -
python-js2py模块的应用
好吧,国庆节来了自己一个人没有选择出去玩,因为失业了还要找工作,苦逼呀…在找工作之前自己这几天肯定要准备点东西,真惨…不矫情了。分享一个破解js方法的模块吧。在工作中有些网站是涉及到加密的问题,因为作者所做的网站大部分涉及到登录问题,那么在登录的时候我们知道最有可能遇到的是账号密码的加密,今天就分享一下自己在工作中实际遇到的问题以及解决方法,直接上代码如下:{"LoginKey":"46fd8...原创 2018-10-01 21:16:29 · 7257 阅读 · 2 评论 -
fake-useragent,retry的分享
这里作者说一下为什么会分享fake-useragent,因为作者在爬取信用类的国家网站的时候,没有设置代理怎样能让其多爬取点呢?可以随机设置请求头吗?所以作者这里做了个大胆的预测,所以就做了这个随机设置请求头的方法,当然代理才是关键,哈哈哈一:fake-useragent的使用安装方法:pip install fake-useragent使用方法:from fake_use...原创 2018-09-15 11:26:16 · 332 阅读 · 0 评论 -
python-sha1和base64加密实际问题的解决
今天笔者分享的是简单的加密破解的方法,主要分享怎样更加简单的查找加密的文件一些小技巧和方法。 一: 目标的路径:http://www.zjyypt.net/portal/login.action,需要账号和密码,账号和密码这里就不在提供。 主要需要解决的问题如下图所示: 从圈出的可知,密码和作者编码都进行了加密,那么怎么分析这些加密并将其破解出来呢?笔者在这里分享一...原创 2018-07-30 23:18:11 · 3633 阅读 · 0 评论