![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
python学习分享
DmrForever
这个作者很懒,什么都没留下…
展开
-
试卷.txt文件转json格式-多选题
import ref=open(r'E:\我的文件\多选题.txt')fnew=open(r'E:\我的文件\多选题-json.txt','a')sum=0str0=''f1=f.readlines()print(f1)print(f1[16])for f0 in f1: sum=sum+1print(sum)i=0while(i<sum): if (i...原创 2018-05-31 17:40:22 · 1854 阅读 · 0 评论 -
Python中取整方法小结
1、向下取整向下取整直接用内建的 int() 函数即可:123>>> a = 3.75>>> int(a)32、四舍五入对数字进行四舍五入用 round() 函数:123>>> round(3.25); round(4.85)3.05.03、向上取整向上取整需要用到 math 模块中的 ceil() 方法:1234567>>>...转载 2018-04-30 20:29:08 · 309 阅读 · 0 评论 -
试卷.txt文件转json格式-判断题
f=open(r'E:\我的文件\判断题.txt')fnew=open(r'E:\我的文件\判断题-json.txt','a')sum=0str0=''f1=f.readlines()print(f1)for f0 in f1: sum=sum+1print(sum)for i in range(0,sum): th=str(int(i+1))+'、' ...原创 2018-05-31 17:42:45 · 871 阅读 · 0 评论 -
试卷.txt文件转json格式-单选题
python转txt文件为json格式原创 2018-05-31 17:37:48 · 3127 阅读 · 3 评论 -
wordcloud词云
两种方法:1、使用pyecharts ,它是一个用于生成 Echarts 图表的类库教程:访问pyechart教程2、使用python的wordcloud类库安装:python -m pip install wordcloud代码:"""Masked wordcloud================Using a mask you can generate ...原创 2018-08-17 21:29:40 · 1023 阅读 · 0 评论 -
Cookie的使用--爬虫
在访问互联网页面时,通过无状态协议(无法维持会话之间的状态)HTTP进行。例如:我们访问需要登录的网站,可以通过两种方式存储登录状态。(1)Cookie保存会话信息,保存在客户端。 (2)Session保存会话信息,保存在服务端。通过服务端给客户端发SessionID等信息,这些信息一般存储在客户端的 Cookie中。然后,用户在访问网站时,从Cookie中读取信息,然后从服务器中的Sessi...原创 2018-07-24 22:01:29 · 253 阅读 · 0 评论 -
爬虫如何避免被禁止
一、禁止Cookie有的网站会通过Cookie来识别用户,我们可以禁用Cookie使对方网站无法识别出我们的对话信息,达到避免被禁止。在Scrapy的项目中的settings.py 文件中找到代码并修改如下:# Disable cookies (enabled by default)COOKIES_ENABLED = False二、设置下载延时有的网站会通过我们对网站的爬取...原创 2018-08-18 16:22:41 · 9412 阅读 · 0 评论 -
Scrapy爬虫文件批量运行
Scrapy批量运行爬虫文件的两种方法:1、使用CrawProcess实现https://doc.scrapy.org/en/latest/topics/practices.html2、修改craw源码+自定义命令的方式实现(1)我们打开scrapy.commands.crawl.py 文件可以看到: def run(self, args, opts): ...原创 2018-08-12 16:07:20 · 1770 阅读 · 0 评论 -
机器学习笔记——1
1、机器学习的定义:如果一个程序可以在任务T上,随经验E的增加,效果P随之增加,则这个程序可以从经验中学习。过程:单个神经元:2、基于tensorflow的NN(神经网络):用张量表示数据,用计算图搭建神经网络,用会话执行,优化线上的权重(参数),得到模型。2.1、张量:多维数组(列表),阶:表示张量的维数。如:标量(0阶)、向量(1阶),矩阵(2阶)2.2、计算图...原创 2018-08-10 21:50:13 · 243 阅读 · 0 评论 -
python中*args和与**kwargs
(1)、在函数定义时,当我们不确定函数的参数个数时,*args允许你传入任意数量的参数,**kwargs可以传入任意数量的关键字参数。def func1(*args): print(args)def func2(**kwargs): print(kwargs)def func3(a,b,*args,**kwargs): print(a,b,args,kwargs)...原创 2018-08-12 17:13:17 · 187 阅读 · 0 评论 -
使用CrawlSpider 自动爬取网页
在Scrapy中提供了自动爬取网页的CrawlSpider。一、创建CrawlSpider 项目1、(1)运行创建项目命令:python -m scrapy startproject mycwpit(2)进入爬虫项目:cd mycwpit;运行创建爬虫命令:python -m scrapy genspider -t crawl steve sohu.com这里我们使用了...原创 2018-08-18 12:04:54 · 1928 阅读 · 0 评论 -
Scrapy爬虫笔记——2
1、对数据进行筛选和提取的两种方法:(1)正则表达式(2)XPath表达式:它是一种XML路径语言,用“/”符号选择某个标签,可以进行多层次标签的查找;获取该标签中的文本信息,通过text() 实现;使用“//”可以提取某个标签的所有信息,如:通过“//p”提取网页中的所有<p>标签;获取所有属性X的值为Y的<Z>标签的内容,通过“//Z[@X="Y...原创 2018-08-12 11:34:15 · 286 阅读 · 0 评论 -
Scrapy中的xmlfeed爬取XML源
我们一般用xmlfeed模版爬虫去处理RSS订阅信息。RSS是一种信息聚合技术,可以让信息的发布和共享更为高效和便捷。RSS是基于XML标准的。用xmlfeed爬取新浪博客的订阅信息。任意选择一个新浪博客,点击订阅出现一个订阅地址:http://blog.sina.com.cn/rss/1246151574.xml文件是.xml结尾,这就是我们要爬取的xml标准的RSS订阅信息。...原创 2018-08-19 09:54:50 · 1367 阅读 · 0 评论 -
Scrapy爬虫笔记——1
1、安装:使用pip install scrapy;假如使用了Fiddler作为代理服务器进行调试分析,为了避免该软件的影响:打开Fiddler,进入“Tools——>Fiddler Options——>Connections”,将“Act as system proxy on startup”和“Monitor all connections”的勾选取消。2、(1)、使用...原创 2018-08-12 09:47:53 · 701 阅读 · 0 评论 -
Scrapy中的csvfeed爬取CSV源
我们可以用csvfeed模版创建的爬虫爬取CSV文件的数据,CSV文件是一种可以与表格数据相互转化的文件格式。一、创建项目和爬虫文件#在需要创建项目的文件夹下,打开命令行,运行下面命令python -m scrapy startproject csvpjtcd csvpitpython -m scrapy genspider -t csvfeed steve 网站名(例如xxx.c...原创 2018-08-19 11:22:45 · 710 阅读 · 0 评论 -
Scrapy 中文输出与存储
1、中文输出python3.X中中文信息直接可以输出处理;python2.X中:采用中文encode("gbk")或者encode("utf-8")。2、中文存储在Scrapy中对数据进行处理的文件是pipelines.py 文件,首先打开项目设置文件setting.py 配置pipelines。# Configure item pipelines# See https:/...原创 2018-08-17 20:46:50 · 317 阅读 · 0 评论 -
Scrapy登录爬取豆瓣个人中心页
# -*- coding: utf-8 -*-import urllibimport scrapyfrom os import pathfrom scrapy import Request, FormRequestimport os#登录爬取豆瓣d = path.dirname(__file__) if "__file__" in locals() else os.getcwd...原创 2018-08-19 14:04:28 · 351 阅读 · 0 评论 -
图片爬虫
爬取图片的思路与过程(1)建立一个爬取图片的自定义函数,该函数负责爬取一个页面下的我们想爬取的图片,爬取过程为:首先通过urllib.request.urlopen(url).read()读取对应网页的全部代码,然后根据第一个正则表达式进行第一次信息过滤,过滤完成后,在第一次过滤结果的基础上,根据第二个正则表达式进行第二次信息过滤,提取出该网页上所有目标图片的链接,并将这些链接地址存储在一...原创 2018-07-24 22:00:46 · 713 阅读 · 0 评论