爬虫
愤怒的马农
爬虫,数据分析,机器学习,人工智能
展开
-
python 文件/图片上传 boundary=----WebKitFormBoundary.....
python 图片/文件上传原创 2023-06-16 16:47:39 · 3734 阅读 · 2 评论 -
python 爬虫获取,百度风云榜股票数据,保存csv格式
先看看执行结果同路径下会有个 “风云榜.csv” 文件,下面是文件内容下面是完整代码,复制粘贴就可以运行。有问题请留言。# -*- coding:utf-8 -*import requests, csvfrom lxml import etreeclass baidu(object): def __init__(self): self.urls = ['http://top.baidu.com/buzz?b=274&c=1...原创 2021-08-24 12:56:55 · 4007 阅读 · 0 评论 -
速卖通,aliexpress,关键词搜索,获取商品数据,销量,评价,价格,上架时间,图片,openpyxl 写入excel中
咋们先来看看运行结果下面来上代码,完整代码,复制就可以运行的。不懂得或报错的,请留言。# -*- coding:utf-8 -*import requestsimport reimport osimport jsonfrom fake_useragent import UserAgentimport openpyxlfrom openpyxl.drawing.image import Imagefrom lxml import etreefrom da...原创 2021-04-16 18:39:33 · 5931 阅读 · 24 评论 -
openpyxl 下载图片并保存excel里
import openpyxlfrom openpyxl.drawing.image import Imagefrom fake_useragent import UserAgentimport osimport requestsfrom hashlib import md5# 图片保存地址file_path = r"E:\PyCharm\\"# 表格的行excel_key = 1imgs = ["图片链接列表"]for img in imgs: wb = openpyxl..原创 2021-01-24 16:09:38 · 5367 阅读 · 4 评论 -
Xpath 隔壁节点或者父节点获得代码笔记
<a> <b></b></b>路径表达式://b/parent::a 表示获得b节点的父节点元素a节点2、ancestor::*<a> <b> <c></c> </b></a>路径表达式://c/ancestor::*表示获得c节点的祖先节点元素a节点和b节点 ...转载 2020-08-15 12:42:44 · 5586 阅读 · 1 评论 -
python 爬虫 wxpy 获取微信好友的头像和昵称
from wxpy import *import osdef weixin_file_path(): avater_dir = os.path.join(os.getcwd(), 'weixin') if not os.path.exists(avater_dir): os.mkdir(avater_dir) return avater_dirdef save_wx_avater(avater_dir): bot = Bot(cache_pat.原创 2020-08-14 19:43:19 · 5965 阅读 · 3 评论 -
Python 模拟登录淘宝
看了下网上有很多关于模拟登录淘宝,但是基本都是使用scrapy、pyppeteer、selenium等库来模拟登录,但是目前我们还没有讲到这些库,只讲了requests库,那我们今天就来使用requests库模拟登录淘宝!讲模拟登录淘宝之前,我们来回顾一下之前用requests库模拟登录豆瓣和新浪微博的过程:这一类模拟登录是比较简单的登录,只需要在请求登录时将用户名和密码上传验证通过就成功了,...转载 2019-11-08 16:41:59 · 16454 阅读 · 2 评论 -
Python - 爬虫 使用scrapy框架获取豆瓣图片信息
下面是主代码逻辑,非常简单# coding:utf-8import jsonimport scrapyfrom ..items import DouyuItemclass DouyuSpider(scrapy.Spider): name = "douyu" allowed_domains = ["douyucdn.cn"] base_u...原创 2019-09-30 17:44:44 · 5873 阅读 · 0 评论 -
Python - 获取亚马逊 自拍杆美国市场排名
通过在亚马逊美国站获取数据,再将英文数据转换中文,最后写入excle表格中# -*- coding: utf-8 -*-from urllib import request, parseimport requests, time, re, xlrd, json, pymssql, datetimefrom bs4 import BeautifulSoupfrom lxml impo...原创 2019-09-30 17:21:45 · 6068 阅读 · 0 评论 -
python 链接SQL server数据库 增删改查,操作,从表格读取数据
链接数据库# -*- coding:utf-8 -*-import pymssqlimport xlrd# 数据库远程连接conn = pymssql.connect(host="地址:1433", user="用户名", password="密码", database="数据库名",charset="UTF8")# 使用cursor()方法获取操作游标sql = """selec...原创 2019-06-12 19:54:43 · 7593 阅读 · 0 评论 -
Python 读取,写入,追加写入Excel文件以及通过pandas读取数据 将图片写入Excel文件
1.读取xlsx文件import xlrd# 打开文件workbook = xlrd.open_workbook(r'D:\PycharmProjects\reptile\XLSX 工作表 .xlsx')# 获取所有sheetprint(workbook.sheet_names()) # ['sheet1', 'sheet2']# 根据sheet索引或者名称获取sheet内容sh...原创 2019-05-18 15:06:37 · 17840 阅读 · 0 评论 -
python 爬虫学习方向 与 思维导图
原创 2019-05-12 18:22:18 · 7497 阅读 · 0 评论 -
python爬虫验证码识别模块tesseracr与pytesseract
由于tesserocr在windows环境下会出现各种不兼容问题,并且与pycharm虚拟环境不兼容等问题,所以在windows系统环境下,选择pytesseract模块进行安装,如果实在要安装请使用whl文件安装或者使用conda安装pip install pytesseract如果在pytesseract运行是找不到tesseract解释器,这种情况一般是在虚拟环境下会发生,我们需要将...原创 2019-03-14 16:20:04 · 8857 阅读 · 0 评论 -
Python 使用selenium爬取方天下,房源评论信息
使用浏览器爬取房天下,房源评论原创 2019-03-04 19:40:27 · 7165 阅读 · 0 评论 -
python 使用requests模块,爬取百度贴吧内容
爬取百度贴吧import requestsfrom lxml import etreeimport jsonclass TiebaSpider(object): def __init__(self,name): self.name = name self.url = 'http://tieba.baidu.com/mo/q----,sz@320_2...原创 2019-03-12 21:07:40 · 8268 阅读 · 2 评论 -
使用scrapy框架爬取链家网站租房信息
# 这是主代码,其他代码可以去GitHub查看原创 2018-11-30 10:31:02 · 5428 阅读 · 0 评论 -
python 爬虫,获取携程网站机票数据
爬取携程机票数据from prettytable import PrettyTableimport requestsimport jsondef xiecheng(dcity, acity, date): date = date[0:4] + '-' + date[4:6] + '-' + date[6:8] headers = { "User...转载 2019-04-04 21:51:49 · 13554 阅读 · 7 评论 -
Python 使用selenium爬取房天下网站,新房房源详情信息
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom time import sleepimport jsonfrom datetime import datetimeimport reclass Dpspider(object): def __init...原创 2019-04-12 17:13:46 · 7189 阅读 · 0 评论 -
使用scrapy框架实现,房天下网站全站爬取,详情,动态,评论,户型,图片.
scrapy 实现代码,代码有点多,没有优化,,下面有链接,不懂得留言 Github全部代码,https://github.com/Agile929/scrapy_fang# -*- coding: utf-8 -*-import scrapy, jsonimport mathfrom lxml import etreefrom ..items import Dat...原创 2019-04-15 11:56:14 · 7771 阅读 · 8 评论 -
python爬虫抓取,免费高匿快代理 IP
直接上代码了,没什么解释的 每步都有注释的 复制粘贴就可以用了.不能运行直接回复"代码" 给你源码import requestsfrom lxml import etreeimport jsonclass XiciProxiesSpider(object): def __init__(self): self.num = 1 self.s...原创 2019-05-03 09:49:45 · 12626 阅读 · 6 评论 -
Python 使用selenium爬取58网站,租房详情信息
58租房简单的实现from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport jsonclass ZufangSpider(object): def __init__(self): # 创建浏览器驱动对象 self.dr...原创 2019-05-05 16:40:51 · 7424 阅读 · 0 评论 -
Python 使用selenium爬取房天下网站,房源动态信息
在这里插入代码片什么是Seleniumselenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器...原创 2019-03-05 19:14:31 · 8071 阅读 · 0 评论