爬虫当当网后将数据写入excel的两种方式

爬虫后将数据写入excel的两种方式:
第一种是用xlwt模块,这个写的代码比较多,也比较繁琐,但是一点问题都没有的。
第一种方式源代码

# !/user/bin/env ptyhon

import requests
import re
import xlwt


def main():
    workbook = xlwt.Workbook(encoding='utf-8')
    mysheet = workbook.add_sheet('mysheet')
    mysheet.write(0, 0, '排名')
    mysheet.write(0, 1, '图片地址')
    mysheet.write(0, 2, '书名')
    mysheet.write(0, 3, '评论数量')
    mysheet.write(0, 4, '推荐指数')
    mysheet.write(0, 5, '作者')
    mysheet.write(0, 6, '出版社')
    mysheet.write(0, 7, '价格')
    i = 1
    for page in range(1, 4):
        url = 'http://bang.dangdang.com/books/bestsellers/1-' + str(page)
        html = getHTMLText(url)
        items = parse_result(html)
        print(items)
        for item in items:
            No = item[0]  # 排名
            image = item[1]  # 图片地址
            book_title = item[2]  # 书名
            reviews = item[3]  # 评论数量
            recommend = item[4]  # 推荐指数
            writer = item[5]  # 作者
            press = item[6]  # 出版社
            price = item[7]  # 价格

            mysheet.write(i, 0, No)
            mysheet.write(i, 1, image)
            mysheet.write(i, 2, book_title)
            mysheet.write(i, 3, reviews)
            mysheet.write(i, 4, recommend)
            mysheet.write(i, 5, writer)
            mysheet.write(i, 6, press)
            mysheet.write(i, 7, price)
            i += 1
    workbook.save('dangdang.xls')


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "异常"


def parse_result(html):
    pattern = re.compile(
        '<li>.*?list_num.*?>(.*?).</div>.*?<img.*?src="(.*?)".*?class="name".*?title="(.*?)".*?class="level".*?target="_blank">(.*?)</a>.*?class="tuijian">(.*?)</span>.*?class="publisher_info".*?title="(.*?)".*?</a>.*?class="publisher_info".*?target="_blank">(.*?)</a>.*?class="price_n">&yen;(.*?)</span>.*?</li>',
        re.S)
    items = re.findall(pattern, html)
    return items


if __name__ == '__main__':
    main()

第二种是用pandas模块,这个写的代码比较少,但是一问题有点多。我之前写的时候后面的会把前面的覆盖掉,所以我最终用了with open 用了csv模块
第二种方式源代码

import requests
from lxml import etree
import csv

def get_info(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'
    }
    response = requests.get(url, headers=headers).text
    result = etree.HTML(response)

    #  xpath解析获取内容

    bookname = result.xpath('//div[@class="name"]/a/@title')[0]
    image = result.xpath('//div[@class="pic"]/a/img/@src')[0]
    recommend = result.xpath('//div[@class="star"]/a/text()')[0]
    writer = result.xpath('//div[@class="publisher_info"]/a/text()')[0]
    price = result.xpath('//div[@class="price"]/p/span[@class="price_n"]/text()')[0]

    with open('dangdang.csv','w',newline='',encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow([bookname,image,recommend, writer, price])
        for value in zip(bookname,image,recommend, writer, price):
            writer.writerow(value)


def run():
    page = 0
    while 1:
        url = 'http://bang.dangdang.com/books/bestsellers/1-' + str(page)
        get_info(url)
        page += 1
        break


if __name__ == '__main__':
    run()

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在信号处理领域,DOA(Direction of Arrival)估计是一项关键技术,主要用于确定多个信号源到达接收阵列的方向。本文将详细探讨三种ESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)算法在DOA估计的实现,以及它们在MATLAB环境的具体应用。 ESPRIT算法是由Paul Kailath等人于1986年提出的,其核心思想是利用阵列数据的旋转不变性来估计信号源的角度。这种算法相比传统的 MUSIC(Multiple Signal Classification)算法具有较低的计算复杂度,且无需进行特征值分解,因此在实际应用颇具优势。 1. 普通ESPRIT算法 普通ESPRIT算法分为两个主要步骤:构造等效旋转不变系统和估计角度。通过空间平移(如延时)构建两个子阵列,使得它们之间的关系具有旋转不变性。然后,通过对子阵列数据进行最小二乘拟合,可以得到信号源的角频率估计,进一步转换为DOA估计。 2. 常规ESPRIT算法实现 在描述提到的`common_esprit_method1.m`和`common_esprit_method2.m`是两种不同的普通ESPRIT算法实现。它们可能在实现细节上略有差异,比如选择子阵列的方式、参数估计的策略等。MATLAB代码通常会包含预处理步骤(如数据归一化)、子阵列构造、旋转不变性矩阵的建立、最小二乘估计等部分。通过运行这两个文件,可以比较它们在估计精度和计算效率上的异同。 3. TLS_ESPRIT算法 TLS(Total Least Squares)ESPRIT是对普通ESPRIT的优化,它考虑了数据噪声的影响,提高了估计的稳健性。在TLS_ESPRIT算法,不假设数据噪声是高斯白噪声,而是采用总最小二乘准则来拟合数据。这使得算法在噪声环境下表现更优。`TLS_esprit.m`文件应该包含了TLS_ESPRIT算法的完整实现,包括TLS估计的步骤和旋转不变性矩阵的改进处理。 在实际应用,选择合适的ESPRIT变体取决于系统条件,例如噪声水平、信号质量以及计算资源。通过MATLAB实现,研究者和工程师可以方便地比较不同算法的效果,并根据需要进行调整和优化。同时,这些代码也为教学和学习DOA估计提供了一个直观的平台,有助于深入理解ESPRIT算法的工作原理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BRYTLEVSON

打赏的都是天使,创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值