数据分析师
天下同春
举事不定,可问春风。
展开
-
豆瓣电影爬虫
分享一个爬虫小项目 豆瓣网电影top250 适用对象:初学者 要点知识: ① 数据过滤(正则) ② 分页 ③ 数据保存 细节特么的自己看代码 #-*- codeing = utf-8 -*- #@Time:2021/1/2814:32 #@Author:小魁 #@File:DouBan_Test.py #@Software:PyCharm import sys # 正则表达式,进行文字匹配 import re # 指定url,获取网页数据 import urllib.request,urllib.erro原创 2021-09-18 15:04:39 · 260 阅读 · 1 评论 -
Error: [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试。
Error: [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试。 以Flask框架为例 出现此情况说明你的项目在运行的时候端口被其他服务占用了,此时需要关闭占用端口的服务才能继续运行 1、Flask框架在未指定端口的情况下默认端口是5000 2、打开cmd查看5000端口的占用,输入命令 、、、 netstat -ano|findstr 5000 、、、 如下图所示: 3、此时只需要输入命令关闭56488服务即可 、、、 Linux:kill -原创 2021-07-02 14:58:53 · 2468 阅读 · 0 评论 -
《四维交通指数》网站爬虫(scrapy),其中包含对地理数据的处理,例如将获取数据去除双引号和逗号,并转换为二进制并存储到postgreSQL数据库中
《四维交通指数》爬取代码部分重点(部分数据的处理) 代码部分 class SiweiTrafficSpider(crawler.BaseCrawlSpider): # 设置时间间隔 custom_settings = {'DOWNLOAD_DELAY': 3} name = "siwei_traffic" def __init__(self,*args, **kwa...原创 2019-05-10 14:50:29 · 1373 阅读 · 3 评论