自学Python之路--入门菜鸟的菜鸟篇:爬虫

本文是一位BI工程师的初次Python自学记录,专注于爬虫学习。作者通过w3cschool和在线资源学习Python基础知识,并使用BS4、requests等库进行实战,以某DM论坛为实践目标,分享了初步的爬虫代码。同时,作者表达了对代码优化和数据分析方法的期待。
摘要由CSDN通过智能技术生成

第一次写博客&第一次自学Python&第一次实战

Hi,亲们,本博客只是个人瞎写着记录的:

  • 作为已经做BI工程师三年的人竟然第一次接触Python,自学Python 哎~~是不是很晚呢
  • 毕业第一年进入SAP BW模块
  • 第二年已经差不多开始懂点什么是数据建模,什么是数据仓库,数据集市
  • *第三年在公司开始做ETL,数据清洗,数据整合,报表展示

到目前所使用过的数据库:
SAP HANA,SQL server,Greenplum,Mysql,Hadoop,MongoDB,Oracle**

所使用过的BI工具:
SAP BO,Tableau,PowerBI,Microsoft CUBE,Tabular等

唯独目前最火的Python,R等语言 一次都没接触过,因此借此正好有空闲时间来自学一下Python


入门学习篇

  1. 先明确学习的内容:爬虫!!
    去各种网站搜Python自学教学等教材。
    最好用的还是 w3cschool的资料,不懂得问题直接去Bing搜,就是这么简单粗暴

  2. 边学习边应用:
    个人是比较习惯于一一边学习一边实战的方式。所以一边学习爬虫相关的库, 一边直接应用

  3. 学习到的库:
    BS4
    urlopen
    pyhdb
    datetime
    requests
    re
    也不能说是学完了,应该是有一点点知道了怎么应用,网上资料很多,不懂直接去Bing搜就出来一堆东西啦~哈哈哈哈

  4. 选定一个目标就直接实战:
    称为我猎物的是某DM论坛。(因为个人比较喜欢游戏)

废话不多说下面就献丑自己乱写的代码,因为没有考虑效率问题,希望能得到更好的建议

实战篇

分析

  • 先进入论坛首页,分析网站结构,找出规律

    1、发现搜索列右边已经给出所有游戏类目,找到定位就更简单了。
    把所有类目都放在class=”scbar_hot_td”下的id=”scbar_hot”下 class=‘xi2’
    Href=后面直接有每个类

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值