python代码优化怎么做_请问我的python小爬虫代码应该怎么做优化？

最新推荐文章于 2024-05-10 02:04:46 发布

weixin_39583521

最新推荐文章于 2024-05-10 02:04:46 发布

阅读量46

点赞数

文章标签： python代码优化怎么做

本文链接：https://blog.csdn.net/weixin_39583521/article/details/111453099

版权

新入门做的一个爬取文段程序，代码看起来比较臃肿，请问有没有什么好的建议呢？

另外我准备在for循环末尾把数据插入mysql数据库，这样做好吗，还是说再弄一个for循环，第一个for循环把数据存进二维列表里，第二个循环再逐条插入数据呢？

#-*- coding:utf-8 -*-

import re

from pyquery import PyQuery as pq

import time

#过滤html标签

def stripTag(x):

return re.sub('','',str(x))

#转换时间戳

def timeStamp(x):

return time.mktime(time.strptime(x,'%Y-%m-%d %H:%M'))

#获取网页局部源码

d = pq(url='http://www.juexiang.com/list/1017')

d = pq(d('.left').html())

x = d('div.arttitle')

#匹配时间格式

pattern = re.compile(r"[0-9]{4}(.*)[0-9]{2}")

#for循环获取标题、作者、时间

for i in x:

a = pq(pq(i).html())

title = stripTag(pq(a('a').eq(0).text()))

author = stripTag(pq(a('a').eq(1).text()))

time1 = str(pq(a('span').eq(2).text()))

time1 = timeStamp((pattern.search(time1)).group())

print(title,'\t',author,'\t',time1,'\n')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39583521

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬取小说（四）代码优化

MTbaby的博客

09-09

1379

本次主要优化章节字段根据爬取顺序入库，各功能函数模块化。 # -*- coding: utf-8 -*- import urllib.request import bs4 import re import sqlite3 import time print ('连接数据库……') cx = sqlite3.connect('PaChong.db') # 在该数据库下创建表 # cx.execu...

python 抢票代码猫眼演出_Python爬虫-猫眼电影排行

weixin_36081891的博客

02-03

2999

爬虫的目标爬取猫眼电影TOP100的电影名称，时间，评分，图片等信息抓取分析查看网页源代码，找到对应的目标信息，发现一部电影对应的源代码是一个dd节点抓取首页为了方便，这里先抓取第一页的内容,运行之后，可以查看到网页的源代码，之后需要对页面进行解析。import requestsdef get_one_page(url):headers = {'User-Agent':'Mozilla/5.0 (...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫代码优化：使用生成器重构提取数据方法

Python热爱者的博客

09-21

441

前言在刚开始学习python的时候，有看到过迭代器和生成器的相关内容，不过当时并未深入了解，更谈不上使用了，其实是可以用生成器来改造一下的，所以本次就使用生成器来优化一下爬虫代码生成器函数与普通函数的区别是，生成器用关键字 yield 来返回值，而普通函数用 return 一次性返回值；当你调用生成器函数的时候，函数内部的代码并不立马执行，这个函数只是返回一个生成器对象；一般使用for循环迭代生成器对象来获取具体的返回值什么时候可以使用生成器呢？一般爬虫经常会通过for循环来迭代处理数据，

32个Python爬虫项目让你一次吃到撑

热门推荐

大方子

08-23

20万+

=========================== 若出现链接失效，请留言会及时修复 =========================== 今天为大家整理了32个Python爬虫项目。整理的原因是，爬虫入门简单快速，也非常适合新入门的小伙伴培养信心。所有链接指向GitHub，祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微...

3种方式优化Python自动化代码

python爬虫人工智能大数据

05-25

807

一、开始1.先把要做的事一步一步用注释写出来，然后再写代码。切记一定要写注释！不然回头看不懂自己写的是啥，这就尴尬了。2.提高测试用例运行效率，减少测试用例运行时间：Web自动化用例在编...

Python爬虫优化：加快运行速度、显示进度条、显示错误信息

weixin_43891121的博客

02-28

1677

1.加快爬虫运行速度：代码中存在r.encoding = r.apparent_encoding，因此每使用一次request请求，都会分析一遍页面内容来确定可能采用的编码方式，这样很耗时间，可以先得到网页编码方式，直接使r.encoding = ‘utf-8’ 这样可以节省不少时间。 2.显示进度条：爬取股票信息，显示进度条： print(’\r当前进度:{:.2f}%’.format(co...

Python 万能代码模版：爬虫代码篇

AI悦创·编程私教1v1

09-14

12万+

你好，我是悦创。很多同学一听到 Python 或编程语言，可能条件反射就会觉得“很难”。但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要替换链接、文件，就可以轻松完成。并且这些几个实用技巧，简直是 Python 日常帮手的最佳实践。比如：爬取文档，爬表格，爬学习资料；玩转图表，生成数据可视化；批量命名文件，实现自动化办公；批量搞图，加水印、调尺寸。接下来，我们就逐一用 Python 实

Python爬虫完整代码拿走不谢

weixin_44617651的博客

03-22

5万+

对于新手做Python爬虫来说是有点难处的，前期练习的时候可以直接套用模板，这样省时省力还很方便。

python爬虫入门（所有演示代码，均有逐行分析！）

m0_61903191的博客

05-10

8157

网络爬虫，也称为网页蜘蛛或网络机器人，是一种自动抓取万维网信息的程序或脚本。爬虫的基本原理是通过模拟人的网络行为，如点击按钮、查看数据等，来获取服务器上的数据。这些数据可以是文本、图片、视频等多种格式。爬虫分为通用爬虫和聚焦爬虫两大类，其中通用爬虫的目标是在保持一定内容质量的情况下爬取尽可能多的站点，如搜索引擎；而聚焦爬虫则主要针对特定对象或网站，有一台指定的爬取路径、数据抽取规则。此外，爬虫还被广泛应用于多个领域，如数据聚合、舆情分析、网络安全、税务稽查等。这部分内容简单看一下想深入了解看可以看看。

python爬虫是干嘛的？python爬虫能做什么？

09-07

7041

python爬虫可以用于收集数据，爬虫是一个爬虫程序，一个程序的运行速度是非常快的，而且不会因为重复的事情感到疲倦，接下来我们一起学习python爬虫是干嘛用的，python爬虫究竟能做什么呢？python爬虫是什么？ python爬虫是干嘛的呢？ 1、python爬虫可以用来收集数据 2、Python爬虫可以刷流量和秒杀 python爬虫能做什么呢？ 1、收集数据 python爬虫用来收集数据是最直接和常用的方法，可以使用python爬虫程序获得大量的数据，从而变得非常的简单和快速；绝大多数网站使用了模

python 网络爬虫初级实现代码

12-23

首先，我们来看一个Python抓取网页的库：urllib或urllib2。那么urllib与urllib2有什么区别呢？可以把urllib2当作urllib的扩增，比较明显的优势是urllib2.urlopen()可以接受Request对象作为参数，从而可以控制...

爬虫代理池Python3WebSpider源代码测试过程解析

12-23

这篇文章主要介绍了爬虫代理池Python3WebSpider源代码测试过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下元类属性的使用代码主要关于元类的使用 ...

Python3多线程爬虫实例讲解代码

12-24

在python的原始解释器CPython中存在着GIL（Global Interpreter Lock，全局解释器锁），因此在解释执行python代码时，会产生互斥锁来限制线程对共享资源的访问，直到解释器遇到I/O操作或者操作次数达到一定数目时才会...

python爬虫代码大作业_爬虫大作业

weixin_39610722的博客

12-03

2372

1.选一个自己感兴趣的主题(所有人不能雷同)。答：本次我选择的主题是爬去广州大学的“广大要闻”，工有333页，每页有20条新闻。2.用python 编写爬虫程序，从网络上爬取相关主题的数据。答：第一，首先打开广州大学的新闻页：http://news.gzhu.edu.cn/guangdayaowen/，看到此页有20条新闻，获取总的新闻页数的代码实现如下：#获取文章总页数def getCount(...

基于Java的家庭理财系统设计与开发-金融管理-家庭财产管理-实用性强

11-07

内容概要：文章探讨了互联网时代的背景下开发一个实用的家庭理财系统的重要性。文中分析了国内外家庭理财的现状及存在的问题，阐述了开发此系统的目的——对家庭财产进行一体化管理，提供统计、预测功能。系统涵盖了家庭成员管理、用户认证管理、账单管理等六大功能模块，能够满足用户多方面查询及统计需求，并保证数据的安全性与完整性。设计中运用了先进的技术栈如SSM框架（Spring、SpringMVC、Mybatis），并采用MVC设计模式确保软件结构合理高效。适用人群：对于希望科学地管理和规划个人或家庭财务的普通民众；从事财务管理相关专业的学生；有兴趣于家政学、经济学等领域研究的专业人士。使用场景及目标：适用于日常家庭财务管理的各个场景，帮助用户更好地了解自己的消费习惯和资金状况；为目标客户提供一套稳定可靠的解决方案，助力家庭财富增长。其他说明：文章还包括系统设计的具体方法与技术选型的理由，以及项目实施过程中的难点讨论。对于开发者而言，不仅提供了详尽的技术指南，还强调了用户体验的重要性。

弹性盒子Flexbox布局.docx