爬虫
White_Mountain
爱好学术
展开
-
使用Python截图抓取厦门房地产网签数据之三
经历了只能整个页面截图,到可以抓取图片链接进行截图之后,发现“使用Python截图抓取厦门房地产网签数据之二”里的代码太繁杂了,于是尝试精简,以下为精简后的代码import requestsfrom bs4 import BeautifulSoupfrom datetime import datefrom time import sleepheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap原创 2021-02-21 10:09:22 · 278 阅读 · 1 评论 -
python写入csv或excel时,数字0开头丢失的解决方案
今天尝试抓了几个股票的代码,深证的代码都是以00或000开头,虽然已经转化为str,但写入csv或excel仍出现0丢失的问题,尝试了多种办法,最后发现,在代码前加入’\t’是最优解决方案。代码如下:code = '000123'with open(stock.csv,'w') as f: f.write('\t'+code)f.clsoe()...原创 2021-02-17 23:22:31 · 8409 阅读 · 11 评论 -
使用Python截图抓取厦门房地产网签数据之二
有了链家的房源数据,另一个重要的需求是希望获取每天的成交数据,这个数据在厦门网上房地产“http://fdc.zfj.xm.gov.cn/Home/Index”。这个网站有三个数据是很有用的,分别是“一手房情况”,“一手房网签情况”,“二手房情况”,研究了网页代码后,发现src里没有完整链接,所以一开始只能用最蠢的把整个网页截屏的办法来做,见上一篇“使用python进行截图”。 今天继续研究,找到了整个完整的链接路径,这下好办了,可是用EDGE打开是乱码,试了FireFox和Chrome,都是乱...原创 2021-02-10 19:45:59 · 671 阅读 · 1 评论 -
使用爬虫抓取浦城房产信息
一个朋友让我帮忙找老家的房子,可是链家,安居客这些地方都没有浦城的房产信息,后来在一个论坛里找到了还算比较活跃的房地产板块,于是以此为基础抓取信息。遇到的坑:1、论坛帖子式的帖子,格式不太规范2、信息中包含出售,出租import requestsfrom bs4 import BeautifulSoupwith open(r'c:\pc.csv','a',encoding='utf-8') as f: f.write('{},{},{},\n'.format('链接','更新时间'原创 2021-01-12 15:40:46 · 120 阅读 · 0 评论 -
使用爬虫抓取淘宝商品数据
没写完,跟着别人的教程写的from bs4 import BeautifulSoupimport timefrom selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitclass taobao_infos: def __init__(self): url = 'https://login.taobao.com/member/login.jhtml'原创 2021-01-10 21:10:56 · 1693 阅读 · 0 评论 -
爬虫:使用beautifulsoup和requests抓取链家数据之二:抓取所有房源
趁着元旦假期,总算把一直想做但一直没做的爬虫起了个头,上一篇写了爬虫的基础代码,这一篇,就是正儿八经开始抓所有的房子信息了。先说遇到的坑:1、按第一篇直接进二手房的链接,只有3000个房源,这已经提过了。2、房源里是没有房源位于哪个区的信息的,对数据分析而言,等于缺了一个重要信息,完全没法用了。3、原来的想法是在title这个class里面抓房源ID,但是发现有一些房源,在这里是没有房源ID的,必须另找。4、在跑的时候有报错,不知道是什么原因,直接暴力用try跳过去了。5、有很多车位信息,其实我原创 2021-01-03 23:20:54 · 451 阅读 · 0 评论 -
爬虫:使用beautifulsoup和requests抓取链家数据之一:基础代码
本办法只考虑抓取链家二手房100页的基础数据import requestsfrom bs4 import BeautifulSoupimport re# 链家的二手房基础页面只显示最多100页,每页30个房源的数据,也就是用这个办法,最多可以拿到3000家房源的数据page = 2 # 用于定义页数# 先打开一个csv文件,定义好标题,以备数据插入with open(r'c:\lianjia.csv','a') as f: f.write('{},{},{},{},{},{},{}原创 2021-01-02 00:14:22 · 579 阅读 · 2 评论